全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-03-16_Spark 性能调优还用网上抄作业?| 极客时间

您的位置:首页 >> 新闻 >> 行业资讯

Spark 性能调优还用网上抄作业?| 极客时间 2020 年 6 月,Spark 正式发布了新版本,从 2.4 直接跨越到了 3.0。这次大版本升级的亮点就在于性能优化,它添加了诸如自适应查询执行(AQE)、动态分区剪裁(DPP)、扩展的 Join Hints 等新特性。 其实,在 3.0 版本发布之前,Spark 就已然成为了分布式数据处理技术的事实标准。在数据科学与机器学习魔力象限中,Gartner 更是连续 3 年(2018~2020)将 Databricks(Spark 云原生商业版本)提名为 Market Leader。 自然而然地,Spark 也成为了互联网大厂的标配,在海量数据处理上, 扮演着不可或缺的关键角色。比如,字节跳动基于 Spark 构建的数据仓库去服务几乎所有的产品线,包括抖音、今日头条、西瓜视频、火山视频等。再比如,百度基于 Spark 推出 BigSQL,为海量用户提供次秒级的即席查询。 可以预见的是,这次版本升级带来的新特性,会 让 Spark 在未来 5 到 10 年继续雄霸大数据生态圈。 “性能调优”的万能钥匙,助你精通 Spark就目前来说,Spark 有海量批处理、实时流计算、图计算、数据分析和机器学习这 5 大应用场景,不论你打算朝哪个方向深入,「性能调优」 都是必须要跨越的一步。 为什么这么说呢?原因很简单,对于这 5 大场景来说,提升执行性能是刚需。 图计算和机器学习往往需要上百次迭代才能收敛,如果没有性能保障,这类作业不可能完成计算。流计算和数据分析对于响应实时性的要求非常高,没有高效的执行性能,不可能做到在亚秒级完成处理。 相比其他场景,批处理对于执行效率的要求是最低的,但是,在日增数据量以 TB、甚至 PB 为单位计数的当下,想要在小时级别完成海量数据处理,不做性能调优简直是天方夜谭。 因此,我认为这 5 大场景就像是 5 扇门,每扇门背后都别有洞天,而 性能调优就像是一把“万能钥匙”。有了这把钥匙在手,你才能如入无人之境,去探索更广阔的世界。 为什么性能调优不能“照葫芦画瓢”?很多开发者都意识到这一点,但难就难在,市面上关于 Spark 性能调优的资料,大都不系统,只是在讲一些常规的调优技巧和方法。而对于一些大神分享的调优手段,只是“照葫芦画瓢”做出来的东西,也总是达不到预期的效果,比如: 明明都是内存计算,为什么我用了 RDD/DataFrame Cache,性能反而更差了? 网上吹得神乎其神的调优手段,为啥到了我这就不好使呢? 并行度设置得也不低,为啥我的 CPU 利用率还是上不去? 节点内存几乎全都划给 Spark 用了,为啥我的应用还是 OOM? 这些问题看似简单,但真不是一两句话就能说得清的。这需要我们深入 Spark 的核心原理,不断去尝试每一个 API、算子,设置不同的配置参数,最终找出最佳的排列组合。 说到底,还是需要更多的学习案例与实操。我最近关注到 FreeWheel 机器学习团队负责人吴磊,总结了出一套关于 「性能调优的方法论」。挺戳中我的,分享给大家?? 按图索骥开展性能调优 这张图来自吴磊的极客时间专栏 《Spark 性能调优实战》,刚刚上线,不仅深入浅出的讲了 Spark 核心原理,还全面解析 Spark SQL 性能调优,总结了一份应用开发、配置项设置实操指南,真心实用。 最吸引我的是实操,专栏以 「北京市汽油车摇号」数据为例,手把手带你实现一个分布式应用。一句话总结,就是能让你 一站式加速 Spark 作业执行性能,是不是很牛。 △扫码免费试读或订阅 早鸟 +口令「Spark6666」 立省¥30,到手仅 ¥69 作者是吴磊,现任 Comcast Freewheel 机器学习团队负责人,主要负责计算广告业务中机器学习应用的实践、落地与推广。之前也任职于 IBM、联想研究院、新浪微博,可以说具备丰富的数据库、数据仓库、大数据开发与调优经验了。 早之前听说过他,研究 Spark 是下了功夫的,而且做事儿有股 “较真儿” 的风格,看他上面总结的方法论图就知道,是个严谨、认真的人,跟着这样有实践、有理论,懂实现细节的大佬学习,错不了。 Spark 怎么能“学得快,还学得好”?跟着大佬,能又快又好的学,那就是省“时间”,找到捷径、赚到了,目前专栏 3 个部分的内容,干货不少: 原理篇:聚焦 Spark 底层原理,打通性能调优的任督二脉 Spark 的原理非常多,但专栏聚焦于那些与性能调优息息相关的核心概念,包括 RDD、DAG、调度系统、存储系统和内存管理。 而且用的是最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。 性能篇:实际案例驱动,多角度解读,全方位解析性能调优技巧 一部分是讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联,和你聊聊 Spark SQL 中的调优方法和技巧。 实战篇:打造属于自己的分布式应用 专栏以 2011 - 2019 的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向。我相信,通过这个实战案例,你对性能调优技巧和思路的把控肯定会有一个“质的飞跃”。 除此之外,听说吴磊还会不定期地针对热点话题加餐,比如和 Flink、Presto 相比,Spark 有哪些优势,再比如 Spark 的一些 新特性,以及业界对于 Spark 的新探索。这也能帮助我们更好地面对变化,把握先机。 下面是专栏的目录,看着感觉很不错,理论和实践相结合。 在现在大数据技术领域,基本上是 Spark 形成了一家独大的局面,所以该抓住机会学习的,还得学。 再提醒下,原价 ¥99 结算时用优惠 口令「Spark6666」 立省¥30,到手 仅 ¥69 仅限前 100 人 走心的努力,才算真的努力。2 杯奶茶的价格,拿下这套 Spark 性能调优方法论,值了。 点击「阅读原文」,最低 ¥69 到手。 阅读原文

上一篇:2022-01-04_以感官神经元为转换器:用于强化学习的置换不变神经网络 下一篇:2022-07-31_统信软件刘闻欢谈开源:名、利、信念

TAG标签:

14
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价