突破TensorFlow并行瓶颈的开源框架到底是啥?|直播推荐
主题及讲师介绍本期主题:突破TensorFlow并行瓶颈的开源框架到底是啥?时间:2021 年 9 月 22 日 20:00-21:00直播内容:
随着摩尔定律的失效,单个计算单元的能力已经远远无法满足数据的指数级增长。比如,快手每天上传的新视频超过千万条,即便训练简单的分类模型(比如 ResNet),使用单机单卡的算力,训练快手日内新增视频都需要超过一百天的时间。因此,在数据爆炸性增长的互联网行业,多机多卡的并行训练成为了大数据时代的必然。随着深度学习模型功能的日益强大,分布式训练任务的通信成本和所需算力也随之急剧增长。
然而,由于多机多卡并行带来的额外通讯成本,加速比(speedup)经常让大家失望,从而形成了大厂“堆资源”,没资源的“干瞪眼”的局面。比如,Google 的 Downpour框架 [1] 使用 80个GPU 训练 ImageNet,加速比却只有 12/80=15%。因此如何提升多机多卡中训练的通讯效率成为了并行训练乃至解决数据爆炸性增长的核心问题之一。
项目 GitHub 地址:https://github.com/BaguaSys/bagua
现有的深度学习开源框架(PyTorch,TensorFlow)主要针对系统层面优化,把已有的单机单卡优化算法扩展到多机多卡的场景。虽然系统层面的优化使得并行效率不断提升,但是边际效益却越来越明显。针对这个问题,快手和苏黎世理工(ETH Zürich)联合开发了一款名为“Bagua”的分布式训练框架。
本期,快手Senior Staff Research Scientist 廉相如现身大咖说,与我们分享Bagua的核心技术思路。
延展阅读:《快手八卦!突破TensorFlow、PyTorch并行瓶颈的开源分布式训练框架来了!》
直播大纲:
1.分布式训练框架当前面临的问题
2.Bagua在性能和通讯层面所做的优化
3.开发者如何抉择合适的框架
4.深度学习未来的发展方向是什么?
讲师介绍:
本期,快手Senior Staff Research Scientist 廉相如现身大咖说,与我们分享Bagua的核心技术思路。
如何看直播?9 月 22 日 20:00 扫描下方【二维码】,进入直播间。
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线