全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-03-13_「转」Meta公开 Llama-3基础训练设施:使用了49,000个H100

您的位置:首页 >> 新闻 >> 行业资讯

Meta公开 Llama-3基础训练设施:使用了49,000个H100 来源 | 授权转载自AIGC开放社区(公众号ID:AIGCOPEN) 3 月 13 日,社交、科技巨头 Meta 在官网公布了两个全新的 24K H100 GPU 集群(49,152 个),专门用于训练大模型 Llama-3。 此外,Llama-3 使用了 RoCEv2 网络,基于 Tectonic/Hammerspace 的 NFS/FUSE 网络存储,继续使用了 PyTorch 机器学习库。 从训练进度来看,估计 Llama-3 最快将于 4 月末或 5 月中旬上线。受 Sora 影响,很可能是一个多模态模型,并且会继续开源。 Meta 表示,预计到 2024 年底,将拥有 600,000 个 H100 的算力。 Meta首席科学家确认 Meta 庞大的 AI 算力集群 Meta 作为全球市值最高的科技公司之一,对 AI 的投入一直非常大,致力于构建造福全人类的 AGI(通用人工智能)。 早在 2022 年 1 月 24 日,Meta 首次公布了 AI 研究超级集群 (RSC) 的详细信息,拥有 16,000 个英伟达 A100 GPU。 该集群在开发全球最受欢迎的类 ChatGPT 模型 Llama 和 Llama 2,以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。 本次新增的 GPU 集群建立在 RSC 成功经验之上,每个集群包含 24,576 个 H100 GPU,能够支持比以往更复杂、参数更高的大模型训练。 集群网络 Meta 每天要处理数百万亿次 AI 模型的请求,所以,使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。 一个集群是基于 Arista7800、Wedge400 和 Minipack2 OCP 机架交换机,构建了一个具有融合以太网远程直接内存访问 (RoCE) 网络结构的解决方案; 另外一个使用了 NVIDIA Quantum2 InfiniBand 结构,这两种方案都能互连 400 Gbps 端点。 在两个不同集群帮助下,Meta 可以评估不同类型的互联对大规模训练的适用性和可扩展性,为以后设计和构建更大、更大规模的集群提供更多经验。 此外,Meta 已经成功地将 RoCE 和 InfiniBand 集群用于大型生成式 AI 工作负载(包括正在 RoCE 集群上对 Llama 3 进行的训练),并且没有出现任何网络瓶颈。 硬件平台 新增的两个集群全部使用 Grand Teton,这是 Meta 内部设计的开放性 GPU 硬件平台,于 2022 年 10 月 18 日首次发布。 Grand Teton 建立在多代人工智能系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性,可快速部署到数据中心机群中,并易于维护和扩展等优点。 数据存储 随着大模型的功能趋于多模特,需要消耗大量的图像、视频、音频和文本数据,所以,对数据存储的需求迅速增长。 Meta 新集群的存储部署通过自创的用户空间 Linux 文件系统 API 来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。 该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。 Meta 还与 Hammerspace 合作,共同开发、部署并行网络文件系统 (NFS),以满足开发人员对超级 AI 集群的存储要求。 此外,Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。 将 Meta 的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起,可以在不影响规模的情况下实现快速功能迭代。 内容推荐 OpenAI 的首个视频生成模型 Sora 发布,效果令人惊叹。作为技术人,除了看热闹,我们还要看门道;咱也不必跟着瞎焦虑,踏实下来研究些干货内容。看看郑建勋老师对 Sora 官方技术报告的深度解读,关注「AI前线」,回复「Sora」免费领取。 今日荐文 Midjourney控诉Stability AI偷作品还搞崩了服务器!曝光后Stability AI CEO 紧急回应 李彦宏“程序员将不再存在”言论被周鸿祎驳斥,网友怒怼:先把百度程序员都开除了! “钮祜禄·奥特曼”彻底回宫;IBM大裁员:关键部门裁80%;乐视回应简历无需写年龄、婚育情况| AI 周报 专访85岁冯志伟教授:一个北大中文系学生的机器翻译之梦 谷歌华人工程师被捕:号称“全球能搭建万卡级算力平台的十人之一”,在国内两公司担任CTO、CEO你也「在看」吗???

上一篇:2024-11-30_又又又给 AI 发明新语言了!卡内基梅隆大学让计算机理解人的想法后自动coding,结果翻车了! 下一篇:2019-01-31_技术水平20K,面试Offer 15K,为什么?| 极客时间

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价