collabH / bigdata-growth

大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

img.png

repository

Security Status

License

Stargazers over time

概述

  • 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
  • 在线文档

RoadMap

roadMap

基础能力

数据结构

分布式理论

计算机理论

Scala

JVM

Java

并发编程

JDK源码

todo

算法

BigData

cache

数据编排技术

alluxio

datalake

hudi

quick start
doc with source

配合官方文档和源码带从0到1学习hudi

article

iceberg

rss

remote shuffle service

celeborn

store

存储相关,包含rocksdb、Hbase、BookKeeper、Zookeeper等

rocksDB

Bookkeeper

HBase

Zookeeper

Hadoop

广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

MapReduce

Yarn

生产配置

Engine

计算引擎相关,主要包含Flink、Spark等

Flink

  • 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
Core
SourceCode
zoology
Paimin
Flink CDC Connector
devops
Flink On K8s
Flink SQL Tools
Book
Flink内核原理与实现
Feature
Practice
Connector
monitor

Spark

主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

Spark Core
Spark SQL
Spark Practice
Spark Streaming
Native SQL Engine
源码解析

Collect

数据采集框架,主要包含Binlog增量与SQL快照方式框架

Canal

Debezium

Flume

Sqoop

MQ

消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar

Kafka

Pulsar

schedule

Azkaban

DolphinScheduler

olap

主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。

Hive

Presto

clickhouse

Druid

Kylin

Kudu

paper

Impala

graph

图库相关

nebula graph

tools

工具集相关,包含计算平台、sql语法Tree等

zeppelin

SQL语法树

calcite

数据仓库建设

理论

数据中台设计

方案实践

读书笔记

books

数据笔记相关

DDIA读书笔记

devops

maven

服务监控

mac

贡献方式

技术分享

About

大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

License:MIT License


Languages

Language:Shell 100.0%