LXW4939 / God-Of-BigData

大数据成神之路开启...

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool


已经更新100+篇~
关注公众号~

大数据成神之路目录

大数据开发基础

🎿Java基础 📝NIO 📖并发 🎸JVM 💵分布式 💾Zookeeper 👊RPC 🎨Netty 💻Linux
Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux

大数据框架学习

Hadoop Hive Spark Flink HBase Kafka Zookeeper Flume Sqoop Azkaban

大数据开发基础

一、Java基础

二、NIO基础

三、Java并发容器

四、JVM深度解析和面试点

先来10篇基础热身
再来5篇详细解说

五、分布式理论基础和原理

六、大数据框架开发基础-Zookeeper

七、大数据框架开发基础-RPC

八、大数据框架基石之网路通信-Netty

大数据框架学习

本部分引用了Bigdata-Notes的文章,作者是heibaiying,大佬写的文章非常好,欢迎大家关注他的博客。 我个人会持续补充更有深度和实战性的文章~

一、Hadoop

  1. 分布式文件存储系统 —— HDFS
  2. 分布式计算框架 —— MapReduce
  3. 集群资源管理器 —— YARN
  4. Hadoop 单机伪集群环境搭建
  5. Hadoop 集群环境搭建
  6. HDFS 常用 Shell 命令
  7. HDFS Java API 的使用
  8. 基于 Zookeeper 搭建 Hadoop 高可用集群
  9. Hadoop级简入门
  10. MapReduce编程模型和计算框架架构原理

二、Hive

  1. Hive 简介及核心概念
  2. Linux 环境下 Hive 的安装部署
  3. Hive CLI 和 Beeline 命令行的基本使用
  4. Hive 常用 DDL 操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive常用 DML 操作
  8. Hive 数据查询详解

三、Spark

Spark Core :

  1. Spark 简介
  2. Spark 开发环境搭建
  3. 弹性式数据集 RDD
  4. RDD 常用算子详解
  5. Spark 运行模式与作业提交
  6. Spark 累加器与广播变量
  7. 基于 Zookeeper 搭建 Spark 高可用集群

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API 的基本使用
  3. Spark SQL 外部数据源
  4. Spark SQL 常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Flink

  1. Flink 核心概念综述
  2. Flink 开发环境搭建
  3. Flink Data Source
  4. Flink Data Transformation
  5. Flink Data Sink
  6. Flink 窗口模型
  7. Flink 状态管理与检查点机制
  8. Flink Standalone 集群部署

Flink当前最火的实时计算引擎-入门篇

Flink当前最火的实时计算引擎-放弃篇

五、HBase

  1. Hbase 简介
  2. HBase 系统架构及数据结构
  3. HBase 基本环境搭建 (Standalone /pseudo-distributed mode)
  4. HBase 集群环境搭建
  5. HBase 常用 Shell 命令
  6. HBase Java API
  7. Hbase 过滤器详解
  8. HBase 协处理器详解
  9. HBase 容灾与备份
  10. HBase的 SQL 中间层 —— Phoenix
  11. Spring/Spring Boot 整合 Mybatis + Phoenix

六、Kafka

Kafka基本原理 :

  1. Kafka 简介
  2. 基于 Zookeeper 搭建 Kafka 高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解 Kafka 副本机制

分布式消息队列Kafka原理及与流式计算的集成 :

  1. Apache-Kafka简介
  2. Apache-Kafka核心概念
  3. Apache-Kafka安装和使用
  4. Apache-Kafka编程实战
  5. Apache-Kafka核心组件和流程(副本管理器)
  6. Apache-Kafka核心组件和流程-协调器
  7. Apache-Kafka核心组件和流程-控制器
  8. Apache-Kafka核心组件和流程-日志管理器

七、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper 单机环境和集群环境搭建
  3. Zookeeper 常用 Shell 命令
  4. Zookeeper Java 客户端 —— Apache Curator
  5. Zookeeper ACL 权限控制

八、Flume

  1. Flume 简介及基本使用
  2. Linux 环境下 Flume 的安装部署
  3. Flume 整合 Kafka

九、Sqoop

  1. Sqoop 简介与安装
  2. Sqoop 的基本使用

十、Azkaban

  1. Azkaban 简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

十一、TODO

[OLAP引擎-HiveSQL的高级调优和原理分析]

[离线列式大数据存储-Hbase的原理和亿级数据下的生产应用]

[Nosql之王-Redis高级特性和实现原理]

[Spark的原理和生产应用(一)]

[Spark的原理和生产应用(二)]

[Spark的原理和生产应用(三)]

[大数据算法(一)]

[大数据算法(二)]

本系列的大纲会根据实际情况进行调整,欢迎大家关注~

SSS、声明

文档中参考引用了大量网络上的博客和文章,大部分给出了出处,有些没写,如果造成了侵权行为,请您联系我,立即删除~

QQQ、扫我关注公众号

关注公众号:每天定时推送Hadoop/Spark/Flink等最新的大数据干货技术文章,学习资料下载等

KKK、如果对你有用,欢迎请我喝杯咖啡

HHH、扫我加群

备注加群,小助手会拉你进大数据讨论组,一起学习交流,期待你的到来~

为什么有这个文档

  • 以前这里只是几个txt文档
  • 是我面试腾讯阿里美团等公司大数据开发工程师的过程中总结出来的大数据开发的必知必会的知识点~

但是,我发现,我有必要
总结一个大数据开发的进阶路线
我知道很多java后端开发同学厌倦CRUD了,但是又不知道大数据这个路线是啥样的~
这个是我的成长路线~
现在看起来
当初没有走错~
当然,数据开发有很多方向比如数据仓库,数据分析
我这里单纯面对数据应用层或者中间件方向,也是大数据方向个人成长比较好的一个方向(我自己认为的,你不同意就算了,哈哈)~
这个是我的成长路线
欢迎各种PR,格式修改也行,总之一切能让这个文档好起来的,都是欢迎的~

言而总之

大数据成神之路 该系列文章将为希望从事大数据开发或者由后端转型为大数据开发的工程师们指出需要学习的知识点和路径,本系列文章同时致敬我曾经在网络上看到无数个Java和大数据系列文章,深受启发同时也收货很多。

本系列文章引用了很多或者二次总结了各位前辈的文章,每篇文章后面都给出了引用,本着不重复造轮子的原则,本人会对其中的一些错误进行订正,感谢各位前辈的付出~

本系列文章希望为那些还在数据开发方向迷茫的人领路,文章会持续更新

欢迎关注公众号‘大数据技术与架构’或者搜索import_bigdata关注~

About

大数据成神之路开启...