flink-china / flink-forward-asia-hackathon-2021

本 GitHub 项目是 Flink Forward Asia Hackathon (2021) 的投票专用项目。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[参赛项目] 基于Alink、Flink SQL 实现批流一体的在线学习训练体系,并且赋能模型化报警系统业务

queyuexzy opened this issue · comments

项目简述

通过 Alink、Flink SQL 实现批流一体的在线学习训练体系,并且赋能业务,实现一个高鲁棒、低误报、可归因的模型化报警系统

背景

1)传统的同环比、统计类报警过度依赖规则与阈值超参数的设定,存在报警不稳定、误报率高、归因困难等问题
2)传统的在线学习首先由离线的大批数据训练出一个模型作为basic model,之后在这个basic model的基础上持续的进行流式训练,但是这个链路下流式训练和离线训练是两套不同的系统、代码体系,且在线学习的持续训练稳定性无法保证。
3)我们通过 Flink 实现 FFT 算法、Prophet 算法、DBScan 算法来实现自动化智能报警预测服务,并且该服务全链路 Flink SQL 实现,底层批流一体

目标

1)实现 Alink 分布式调用python 接口的能力,进而实现FFT、Prophet、DBScan算法
2)利用 Flink SQL统一离线/实时模型训练,实现批流一体的模型在线训练架构
3)利用 Flink 的Failover特性,保证实时训练任务的稳定性
4)保证报警系统准确率

实施方案

1)特征生成:将带有一定周期性的监控数据拼接好相应的特征数据,将这批数据写入Pravega
2)样本拼接:Pravega 作为数据源,积累至少N个周期的时间窗口样本数据作为离线训练的样本,写入离线样本路径;积累至少n个周期的样本数据作为实时训练的样本
3)模型训练/模型预估:
a、Alink 内部实现 FFT 模型训练用来对监控数据进行周期性异常检查
b、Alink 内部实现 Prophet 模型的训练/预估来做监控数据的时间序列预测
c、Alink 内部实现 DBScan 模型训练对数据做聚合,来做异常检查
4)统一离线/实时模型训练:
a、实现离线/实时统一的 Alink 分布式调用python 接口的能力
b、实现相应的算法sql function,提供基于Flink SQL 的批流一体的训练函数
5)系统准确率:对应的sql function 提供相应的参数对监控数据的毛刺等做相应的优化

成员介绍

阿里云天池昵称:张颖打怪兽、临时注册的数据科学练习生、empcl、JJMeg、knowfar

请问下没有开源吗

有些问题想请教一下