Results 3 issues of Chenghao Lyu

Is there any example or tutorial for the imputation tasks in the time series?

question

非常感谢你的文章!我在阅读学习的时候也做了一些demo,想请教一个问题: 在第二章 Job 逻辑执行图 —— 逻辑图的生成 这个部分中,您有提到 _实际 RDD 个数比我们想象的多一些_ 我参照 `groupByKey` 和 `reduceByKey` 分别做了两个实验,发现结果和预期不一致(请见下图和我的实验)。结果都只是产生了 “ParallelCollectionRDD” 和 "ShuffledRDD" 两种,并没有看到中间过程的RDD。我比较了源码中`PariRDDFunctions.scala`里的实现,发现果然已经有变化了。 **请问现在的 map 端的 combine 工作是怎么实现的?** Job 逻辑执行图: ![groupbykey](https://cloud.githubusercontent.com/assets/8079921/25653813/1e471f5a-3021-11e7-87be-cf33fbf7709c.png) ![reducebykey](https://cloud.githubusercontent.com/assets/8079921/25653814/1e471b36-3021-11e7-99d7-337aa04156d3.png) 我的实验代码:(spark 2.1.0)...

Thank you for the great work! Are there instructions on deploying the JOB-benchmark into Spark? Specifically, how to load IMBD to Spark and adapt the JOB queries to the Spark...