[参赛项目] filling - 可托拉拽图形化大数据处理工具, 支持流批一体的大数据中台方案
zihjiang opened this issue · comments
项目简述
Filling, 如其名, 致力于填充你的各种存储, 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于 Apache Flink之上。
为什么我们需要 Filling
我们在使用 Flink 时发现了很多不便捷之处, 通过我们的努力让Filling的使用更简单,更高效,并将业界和我们使用Flink的优质经验固化到Filling中,明显减少学习成本,加快分布式数据处理能力在生产环境落地。 除了大大简化分布式数据处理难度外,Filling尽所能为您解决可能遇到的问题:
- 数据丢失与重复
- 任务堆积与延迟
- 吞吐量低
- 应用到生产环境周期长
- 缺少应用运行状态监控
-
Filling 使用场景
- 海量数据ETL
- 海量数据聚合
- 多源数据处理
-
Filling 的特性
- 简单易用,灵活配置,无需开发
- 实时流式处理
- 离线多源数据分析
- 高性能
- 海量数据处理能力
- 模块化和插件化,易于扩展
- 支持利用算子做数据处理和聚合
背景
大数据发展的今天, 随着着Kappa架构越来越热, 早期的sqoop已经满足不了现在的架构, 我们在使用 Flink 时发现了很多不便捷之处, 通过我们的努力让Filling的使用更简单,更高效,并将业界和我们使用Flink的优质经验固化到Filling中,明显减少学习成本,加快分布式数据处理能力在生产环境落地。
目标
Filling,即基于Flink的流式数据处理工具,预期将拥有如下特性:
- 海量数据处理能力
- 可视化处理过程, 托拉拽方式
- 模块化和插件化,易于扩展
- 快速且高效处理流式数据, 离线数据, 简单易用,灵活配置,无需开发
- 核心模块基于Flink实现,实现精确一次语义,同时提供高性能、断点恢复等支持
- 核心数据抽象为table,操作过程近似对table进行操作,更加贴近数据摄取和清洗场景的用户使用习惯
- 实现诸如Kafka、File、JDBC、ES等常见输入输出,支持Add、Drop, Rename, 等常用转换逻辑,还支持flink所有函数, 支持流join和窗口统计,并支持sql等脚本对数据自定义操作
- 提供对于服务自身和运行流程任务的监控
- 流式处理任务运行环境支持裸机部署或对接Hadoop平台及其部分商业版本
实施方案
该应用是一个可视化拖拽的在线WEB编排服务,以低代码模式完成数据采集、数据计算、数据处理分析。
应用服务将流式计算中涉及到的几大场景进行综合抽象,完成整体编排流程中的3大类算子,数据源,数据输出、数据处理,通过统一的编排方式来适应于各类数据处理场景;以及未来AI分析。
例如:在数据混合采集场景中,通过Flink数据源算子进行各数据抽取,通过数据处理算子完成各种Join处理,完成采集的跨平台、跨数据源的采集。
长远规划
以流处理作为接入点, 以pravega为中心搭建DataHub, 提供流式数据的发布和订阅的功能,为Kappa和实时场景做基座, 打造流批一体的数据中台
成员介绍
阿里云天池昵称:蒋子函、sailyyang