flink-china / flink-forward-asia-hackathon-2021

本 GitHub 项目是 Flink Forward Asia Hackathon (2021) 的投票专用项目。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[参赛项目] Flink SQL算子CDC订阅

xuyangzhong opened this issue · comments

项目简述

该项目主要功能有以下几点:
1、在线作业的各个算子支持在线debug查看输出数据。
2、在线作业的各个算子结果可以直接输出到不同的connector,或直接作为其他作业的source消费
3、多个作业的materialized view可以reuse

背景

一方面,在已上线的Flink作业产生问题时,现有定位问题的做法,一般都是在本地进行代码调试,尝试对线上问题进行复现,或通过大量的日志去排除问题产生的原因,流程繁琐且复杂,其根本原因为Flink缺少在线的调试能力。
另一方面,由于业务增加等一系列历史原因,在线的多个Job中会大量存在拥有相同的计算处理逻辑的节点或节点子图。

目标

本项目旨在通过加强Flink的本身能力,解决以上的几个痛点问题。在复现问题方面,支持在已运行作业中online debug算子产生的数据,方便查找定位问题节点。同时,作业中的每一个算子都可以直接将本算子计算后的数据输出到不同的connector中进行存储,也可以作为其他作业的source消费。而针对有相同处理逻辑的不同作业,会自动将冗余的materialized view进行复用优化。

实施方案

通过借助Coordinator实现在线注册各个算子的能力,若新作业需要某个在线作业的算子作为source消费数据,仅需直接从Coordinator中查找该算子并进行数据订阅,在线调试功能也可以依赖此实现,直接在线print该算子的输出数据进行查看。通过Plan的digest来校验多个作业中是否存在冗余的materialized view,从而将可以reuse的部分进行复用。

成员介绍

阿里云天池昵称:zzZZxy 、 酱油搬运工 、 godfreyhe

commented

项目的 github 地址有嘛?

我也想知道~。~ 想详细了解下 场景和实现

项目的 github 地址有嘛?

我有实现过 离线debug方案 类似Spring AOP 功能 实现不需要改写任务运行代码 外部实现 AOP操作 将数据 进入一个算子之前 的数据拿出来 算子输出的数据拿出来

同想知道项目的 github 地址,想学习下