spark-core

实践|图解AQE的使用

2020-11-18admin阅读(6188)评论(0)赞(0)

我们都知道，之前的 CBO，都是基于静态信息来对执行计划进行优化，静态统计信息大家都懂的，不一定准确，比如hive中的catal ...

2019-12-24admin阅读(4956)评论(0)赞(2)

目录：一、数据倾斜介绍与定位二、解决方法一：聚合数据源三、解决方法二：提高shuffle操作reduce并行度四、解决方法之三： ...

2019-01-29admin阅读(5429)评论(0)赞(0)

首发个人公众号 spark技术分享 , 同步个人网站 coolplayer.net ，未经本人同意，禁止一切转载很久之前的& ...

2019-01-29admin阅读(4784)评论(0)赞(3)

最近深入研究了下 spark shuffle 过程，感觉其中的设计和实现很是有趣，记录下来分享给大家

2019-01-25admin阅读(12030)评论(4)赞(7)

spark 自己的分布式存储系统 - BlockManager

2019-01-25admin阅读(11398)评论(0)赞(1)

彻底理解 spark 的checkpoint 机制

2018-02-09admin阅读(1916)评论(0)赞(1)

顾名思义，broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多，比如 driver 上有一张表，其他节点上运 ...

2018-02-09admin阅读(3582)评论(0)赞(0)

作为区别于 Hadoop 的一个重要 feature，cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更 ...

2018-02-09admin阅读(2229)评论(0)赞(3)

前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master，worker，dri ...

2018-02-09admin阅读(2763)评论(0)赞(3)

上一章里讨论了 job 的物理执行图，也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的，同时也分析了 ta ...