flink-china / flink-forward-asia-hackathon-2021

本 GitHub 项目是 Flink Forward Asia Hackathon (2021) 的投票专用项目。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[参赛项目] filling - 可托拉拽图形化大数据处理工具, 支持流批一体的大数据中台方案

zihjiang opened this issue · comments

项目简述

Filling, 如其名, 致力于填充你的各种存储, 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于 Apache Flink之上。
为什么我们需要 Filling
我们在使用 Flink 时发现了很多不便捷之处, 通过我们的努力让Filling的使用更简单,更高效,并将业界和我们使用Flink的优质经验固化到Filling中,明显减少学习成本,加快分布式数据处理能力在生产环境落地。 除了大大简化分布式数据处理难度外,Filling尽所能为您解决可能遇到的问题:

  • 数据丢失与重复
  • 任务堆积与延迟
  • 吞吐量低
  • 应用到生产环境周期长
  • 缺少应用运行状态监控
  • Filling 使用场景

  • 海量数据ETL
  • 海量数据聚合
  • 多源数据处理
  • Filling 的特性

  • 简单易用,灵活配置,无需开发
  • 实时流式处理
  • 离线多源数据分析
  • 高性能
  • 海量数据处理能力
  • 模块化和插件化,易于扩展
  • 支持利用算子做数据处理和聚合

背景

大数据发展的今天, 随着着Kappa架构越来越热, 早期的sqoop已经满足不了现在的架构, 我们在使用 Flink 时发现了很多不便捷之处, 通过我们的努力让Filling的使用更简单,更高效,并将业界和我们使用Flink的优质经验固化到Filling中,明显减少学习成本,加快分布式数据处理能力在生产环境落地。

目标

Filling,即基于Flink的流式数据处理工具,预期将拥有如下特性:

  • 海量数据处理能力
  • 可视化处理过程, 托拉拽方式
  • 模块化和插件化,易于扩展
  • 快速且高效处理流式数据, 离线数据, 简单易用,灵活配置,无需开发
  • 核心模块基于Flink实现,实现精确一次语义,同时提供高性能、断点恢复等支持
  • 核心数据抽象为table,操作过程近似对table进行操作,更加贴近数据摄取和清洗场景的用户使用习惯
  • 实现诸如Kafka、File、JDBC、ES等常见输入输出,支持Add、Drop, Rename, 等常用转换逻辑,还支持flink所有函数, 支持流join和窗口统计,并支持sql等脚本对数据自定义操作
  • 提供对于服务自身和运行流程任务的监控
  • 流式处理任务运行环境支持裸机部署或对接Hadoop平台及其部分商业版本

实施方案

​ 该应用是一个可视化拖拽的在线WEB编排服务,以低代码模式完成数据采集、数据计算、数据处理分析。

​ 应用服务将流式计算中涉及到的几大场景进行综合抽象,完成整体编排流程中的3大类算子,数据源,数据输出、数据处理,通过统一的编排方式来适应于各类数据处理场景;以及未来AI分析。

​ 例如:在数据混合采集场景中,通过Flink数据源算子进行各数据抽取,通过数据处理算子完成各种Join处理,完成采集的跨平台、跨数据源的采集。

长远规划

以流处理作为接入点, 以pravega为中心搭建DataHub, 提供流式数据的发布和订阅的功能,为Kappa和实时场景做基座, 打造流批一体的数据中台

成员介绍

阿里云天池昵称:蒋子函、sailyyang