weizier / Spark-Series

Spark入门系列文章

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

装逼的大纲

前言

  • 感觉我要被鄙视了。。。。
  • 能力不够,颜值也凑不够,肿么办。。。。
  • 希望我不要烂尾,不要烂尾,不要烂尾
  • 大家多丢我几颗星星,星星一开心,说不定就芭芭拉小魔仙,不烂尾了呢,哈哈哈

0. 开发环境搭建(2016.10.16-2016.10.25)

  • JDK + Scala + Spark + Hadoop
  • IntelliJ IDEA + Maven安装及配置
  • IntelliJ IDEA + Maven一些重要概念

1. 最基本Spark入门指引(2016.10.26-2016.11.06)

  • 基本Scala语法介绍
  • shell脚本上手
  • Spark Notebook

2. Spark程序如何运行起来(2016.11.07-2016.11.18)

  • 简单实例讲解
  • 本地运行
  • 用lz提交
  • 用命令行提交

3. 一些你必须掌握的知识点(2016.11.19-2016.12.20)

每一个点都分为两部分:基础和进阶

  • RDD
  • Shuffle
  • DAG, job, stage, task
  • 从序列化问题说起
  • DataFrame
  • 简单的部署(基于yarn)
  • Spark Web UI
  • configuration
  • 内存
  • 并行度
  • 。。。

4. 问题和调优(2016.12.21-2017.01.10)

  • 如何定位问题
  • 资源配置
  • 数据倾斜
  • GC调优
  • 参数配置
  • 常见错误列表
  • ...

5. 抽离源码主干

  • 要开始解读源码了,压力好大。。。

About

Spark入门系列文章