Spark性能调优实战,一站式加速Spark作业执行性能

你会学到什么?

  • 深入浅出的 Spark 核心原理
  • 全面解析 Spark SQL 性能调优
  • 应用开发、配置项设置实操指南
  • 手把手带你实现一个分布式应用

课程介绍

目前,Spark已然成为分布式数据处理技术的事实标准,也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说,Spark开发都是一项必备技能;而想要进入大厂,就更得有丰富的Spark性能调优经验。

可现实情况是,我们想要快速上手开发应用很容易,把握应用的执行性能却总也找不到头绪,比如:

  • 明明都是内存计算,为什么我用了RDD/DataFrame Cache,性能反而更差了?
  • 网上吹得神乎其神的调优手段,为啥到了我这就不好使呢?
  • 并行度设置得也不低,为啥我的CPU利用率还是上不去?
  • 节点内存几乎全都划给Spark用了,为啥我的应用还是OOM?

为此,我们特意邀请到了吴磊老师,他根据自己多年的数据处理经验,梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。

除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。

课程按照原理、性能、实战分为三大部分。

原理篇:主要讲解与性能调优息息相关的核心概念,包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。

性能篇:虽然Spark的应用场景可以分为5大类,包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对Spark SQL的倾斜和倚重也是有目共睹,所以性能篇主要分两部分来讲。

一部分主要讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助Spark内置优化如Tungsten、AQE和典型场景如数据关联,总结Spark SQL中的调优方法和技巧。

实战篇:以2011-2019的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,帮助你实践我们的方法论和调优技巧,不仅要学得快,也要学得好!

除此之外,课程更新期间,还会不定期地针对一些热点话题进行加餐。比如,和Flink、Presto相比,Spark有哪些优势;再比如,Spark的一些新特性,以及业界对于Spark的新探索。这也能帮助你更好地面对变化,把握先机。

课程目录

课前必学
开篇词|Spark性能调优,你该掌握这些“套路”
01 性能调优的必要性:Spark本身就很快,为啥还需要我调优?
02 性能调优的本质:调优的手段五花八门,我该从哪里入手?
原理篇
03 RDD:为什么你必须要理解弹性分布式数据集?
04 DAG与流水线:到底啥叫“内存计算”?
05 调度系统:“数据不动代码动”到底是什么意思?
06 存储系统:空间换时间,还是时间换空间?
07 内存管理:Spark如何高效利用有限的内存空间?
通用性能调优篇
08 应用开发三原则:如何拓展自己的开发边界?
09 调优一筹莫展,配置项速查手册让你事半功倍!(上)
10 调优一筹莫展,配置项速查手册让你事半功倍!(下)
11 为什么说Shuffle是一时无两的性能杀手?
12 广播变量(一):克制Shuffle,如何一招制胜!
13 广播变量(二):如何让Spark SQL选择Broadcast Joins ?
14 CPU视角:开发者怎么才能高效地利用CPU?
15 内存视角(一):如何最大化内存的使用效率?
16 内存视角(二):如何有效避免Cache滥用?
17内存视角
(三):0OM都是谁的锅,怎么破?
18磁盘视角:如果内存无限大,磁盘还有用武之地吗?
19网络视角:如何高效降低网络开销?
Spark SQL性能调优篇
20RDD和DataFrame:既生瑜,何生亮?
21 Catalyst优化器:你的SQL语句是怎么被优化的?
22 钨丝计划:Tungsten给开发者带来了哪些福报?
23 Spark 3.0(-):AQE的3个特性怎么才能用好?
24 Spark3.0(二):DPP特性该怎么用?
25 数据清洗:Filter+Coalesce这套组合拳,你用对了吗?
26 Join Hints指南:不同场景下,如何选择Join策略?
27 大表Join小表:广播变量容不下小表怎么办?
28 大表Join大表束手就擒,还是负隅顽抗?
实战篇
29 应用开发:北京市小客车(汽油车)摇号趋势分析
30 性能调优:手把手带你提升应用的执行性能
结束语|拿起万能钥匙,开启更多可能

讲师介绍

吴磊,现任 Comcast Freewheel 机器学习团队负责人,负责计算广告业务中机器学习应用的实践、落地与推广。曾任职于 IBM、联想研究院、新浪微博,具备丰富的数据库、数据仓库、大数据开发与调优经验。

吴磊热爱技术分享,擅长从生活的视角解读技术。做过Spark Summit China 2017 讲师、World AI Conference 2020 讲师,在《IBM developerWorks》和《程序员》杂志,以及InfoQ上发表过多篇技术文章,深受好评。

(0)
上一篇 2021年7月1日 下午4:54
下一篇 2021年7月1日 下午5:50

相关推荐

发表回复

登录后才能评论