第三章《Spark 逻辑处理流程》勘误与修改建议

Question

第三章《Spark 逻辑处理流程》勘误与修改建议

JerryLead opened this issue 4 years ago · comments

Lijie Xu commented 4 years ago

isplendid · Answer 1 · Sun Aug 30 2020 13:50:46 GMT+0800 (China Standard Time)

Page 65, 图 3.13 的 2,k, 3,e 为啥不是2,k1, 3,e1

Lijie Xu · Answer 2 · Sun Aug 30 2020 21:16:34 GMT+0800 (China Standard Time)

@isplendid 因为combineByKey中的createCombiner()只会作用于相同key的第一个record。在本例中，处理<2, b>时发现key=2没有被处理过，所以使用createCombiner()将b转换为b1，得到<2, b1>，保存在内存中。接下来处理<2, k>，由于key=2已经被处理过（在内存中），所以使用mergeValue()来处理<2, k>，也就是mergeValue(<2, b1>, <2, k>) => <2, b1+k>。

可以使用下面的示例程序来验证：

import org.apache.spark.sql.SparkSession

object CombineByKeyExample {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .appName("combine by key example")
      .master("local[2]")
      .getOrCreate()

    val sc = spark.sparkContext
    val inputRDD = sc.parallelize(Array[(Int, Char)](
      (1, 'a'), (2, 'b'), (2, 'k'), (3, 'c'), (4, 'd'), (3, 'e'),
      (3, 'f'), (2, 'g'), (2, 'h')
    ), 3)

    println("-----------input RDD--------")
    inputRDD.mapPartitionsWithIndex((pid, iter) => {
      iter.map(value => "PID: " + pid + ", value: " + value)
    }).foreach(println)

    val resultRDD = inputRDD.combineByKey((v: Char) => {
      if (v == 'c') {
        v + "0"
      } else {
        v + "1"
      }
    }
      , (c: String, v: Char) => c + "+" + v, (c1: String, c2: String) => c1 + "_" + c2, 2)
    //    val resultRDD = inputRDD.combineByKey((v:Char)=>List(v), (c:List[Char],v:Char)=>v::c,(c1:List[Char],c2:List[Char])=>c1:::c2)
    println(resultRDD.toDebugString)
    println("-----------result RDD--------")
    resultRDD.mapPartitionsWithIndex((pid, iter) => {
      iter.map(value => "PID: " + pid + ", value: " + value)
    }).foreach(println)
  }
}

Hal · Answer 3 · Tue Sep 22 2020 17:31:11 GMT+0800 (China Standard Time)

Page 61, aggregateByKey()操作的标题前的倒数第三行末尾起
在性能上，相比groupBykey()、reduceByKye()可以在Shuffle之前使用func对数据进行聚合，减少了……
这边的顿号应该改为逗号

swordspoet · Answer 4 · Tue Sep 29 2020 19:43:23 GMT+0800 (China Standard Time)

第54页的表格内sampleByKey()的例子中的“用法”中应该是rdd2 = rdd1.sampleByKey(true,map)

swordspoet · Answer 5 · Tue Sep 29 2020 19:57:20 GMT+0800 (China Standard Time)

第56页，list应该为List

Lijie Xu · Answer 6 · Tue Sep 29 2020 23:21:11 GMT+0800 (China Standard Time)

@swordspoet 多谢指出，下次印刷时会进行更正。

Lijie Xu · Answer 7 · Tue Sep 29 2020 23:21:38 GMT+0800 (China Standard Time)

@zeahoo 多谢指出，下次印刷时会进行更正。

yshdzw · Answer 8 · Wed Dec 23 2020 11:55:22 GMT+0800 (China Standard Time)

P74：“Key是Int类型，并从[0, numPartitions)中随机生成，……”。其中Key的范围是不是都应该是闭区间，不然就对不上P73图(2)中展示的Key——若不包含2，那么随机生成的整型如何得到2，接下来的record的Key+1又怎么得到3？

yshdzw · Answer 9 · Wed Dec 23 2020 11:57:09 GMT+0800 (China Standard Time)

P87：图3.31(3)中MapPartitionsRDD有误

little wang · Answer 10 · Wed Jan 20 2021 18:26:53 GMT+0800 (China Standard Time)

@JerryLead 2020 10 月第二次印刷的版本，里面第86页的内容缺失，变成了第96页的内容，
96页的也还是96页的内容，能不能拍张86页的照片？

Lijie Xu · Answer 11 · Wed Jan 20 2021 21:42:11 GMT+0800 (China Standard Time)

P74：“Key是Int类型，并从[0, numPartitions)中随机生成，……”。其中Key的范围是不是都应该是闭区间，不然就对不上P73图(2)中展示的Key——若不包含2，那么随机生成的整型如何得到2，接下来的record的Key+1又怎么得到3？

感谢指出，目前代码实现是[0, numPartitions)，生成的key应该是[0, 2)，图中的key应该都减去1。

Lijie Xu · Answer 12 · Wed Jan 20 2021 21:53:23 GMT+0800 (China Standard Time)

@wangdxh
我这里只有第一版的，我把85页、86页、87页都拍了照发在这里：

xpleaf · Answer 13 · Wed May 19 2021 12:22:32 GMT+0800 (China Standard Time)

page 52，图3.5，filter图示中，对于tuple

2,g

结果写成了2_g

jimi.feng · Answer 14 · Sat Jul 03 2021 23:22:50 GMT+0800 (China Standard Time)

page65中的图3.13右侧应该是3,(c0+e, f1) -> 3, c0+e_f1

ycli12 · Answer 15 · Sat Feb 26 2022 21:04:28 GMT+0800 (China Standard Time)

P61，页面中间那段：在性能上，相比groupByKey()、reduceByKey()可以在Shuffle之前使用func...
、应该改成逗号

ycli12 · Answer 16 · Tue Apr 12 2022 22:43:04 GMT+0800 (China Standard Time)

P67图3.15中的文字跟其他图片的字体不一样

Rolandz · Answer 17 · Tue Jun 07 2022 20:01:48 GMT+0800 (China Standard Time)

P73 左下角的图，最后一个分区，应该是 3, (5, e); 4, (2, g) ，而不是 3, (5, e) ; 6, (2, g) 吧？Key不是递增的吗？

Rolandz · Answer 18 · Tue Jun 07 2022 20:23:16 GMT+0800 (China Standard Time)

P80 图 3.25 中的 rdd3 左边第一个分区，rdd1 中还包含 (1, b) 的吧？