全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2019-07-19_BERT:我训练再久一点、数据量再大一点,就能重返SOTA

您的位置:首页 >> 新闻 >> 行业资讯

BERT:我训练再久一点、数据量再大一点,就能重返SOTA 机器之心报道 参与:思源、张倩 XLNet 冠军宝座还没坐热,剧情又一次发生反转。 上个月,XLNet 在 20 项任务上全面超越了 BERT,创造了 NLP 预训练模型新记录,一时风光无两。但现在,XLNet 刚屠榜一个月,剧情再次发生反转:Facebook 的研究人员表示,如果训练得更久一点、数据再大一点,BERT 就能重返 SOTA。 他们将改进版的 BERT 命名为 RoBERTa,目前已登上 GLUE 排行榜榜首。 Facebook AI 说:「RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach,我们采用了 BERT-Large,并通过更多的数据与更长的训练来提升预训练过程,最终的结果通过模型集成获得。」 我们算下来,XLNet 用了 126GB 的纯文本,TPU 成本要花 6.14 万美元。如果 RoBERTa 训练资源还要多,那得有多少? 从 BERT 到 XLNet 2018 年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,刷新了 11 项 NLP 任务的最优性能记录,为 NLP 领域带来了极大的惊喜。很快,BERT 就在圈内普及开来,也陆续出现了很多与它相关的新工作。 从 GLUE 基准排行榜上来看,目前 Bert 模型已经排到了第 12 位,但如果仔细观察榜单就可以发现,排在前面的很多模型都是以 BERT 为基础进行的改进,如排在第 8 位的 SemBERT、第 9 位的 BERT+BAM、第 11 位的 BERT on STILTs 等。 但也有研究者另辟蹊径,试图用其他方法构建可以超越 BERT 的预训练模型,如上个月屠榜的 XLNet。XLNet 由卡耐基梅隆大学与谷歌大脑的研究者提出,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越了 BERT,并在 18 个任务上取得了当前最佳效果(state-of-the-art),包括机器问答、自然语言推断、情感分析和文档排序。 XLNet 是一种泛化的自回归预训练模型。研究者表示,该模型克服了 BERT 存在的一些缺点:1)通过排列语言模型,解除 BERT 对 Mask 的独立性假设;2)在预训练中不使用 Mask,解决下游 NLP 任务没有 Mask 标签这一问题。这两大改进,就令 XLNet 相比 BERT 更适合做预训练语言模型。 研究者在 XLNet 中表示,如果 XLNet-Base 的参数量与数据量都与 BERT-Base 相同,那么 XLNet 的效果还是要好一些的。这也就说明 XLNet 本身对任务和架构的改进还是非常有优势的。 数据与算力才是 GLUE 基准的王道 几小时前,Facebook AI 发推特表示只要数据足够大、算力足够多,那么 BERT 还有很大的提升空间。甚至对比改进了任务和结构的 XLNet,RoBERTa 在 6 项 NLP 任务中都有更多的提升。 首先对于数据,XLNet 除了采用原版 BERT 使用的 BooksCorpus、Wikipedia 两大标准数据集(两个共 13GB),它还额外使用了 Giga5、ClueWeb 2012-B、Common Crawl 三大文本数据集(三个共 113GB),本身数据量就已经极其庞大了。那么如果 RoBERTa 要超过 XLNet,那个数据量得多大啊。 其次对于计算力,XLNet 一作杨植麟对机器之心表示,他们使用的是谷歌内部的 TPU 算力,因此对于费用并没有太大的感受。但是按照 XLNet 大模型在 128 个 Cloud TPU v3 下训练 2 天半来算,这基本已经是学术研究机构无法承担的成本。也就 Facebook 这种科技巨头能拿得出「更大」的算力。 最后,这里之所以说是 BERT 重夺 SOTA 结果,是因为 Facebook AI 表示他们采用了 BERT-Large 的原实现。虽然正式的 Paper 或博客还没出来,但我们知道它的主体就是 BERT,只不过可能加了某些修正以更鲁棒地训练。 这样看来,不论是前一段时间有大幅度提升的 XLNet,还是后来赶上的 RoBERTa,它们在数据量和计算力上都有极大地提升。也许在两者的加持下,GLUE 基准才不停地更新。 本文为机器之心报道,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com 投稿或寻求报道:content@jiqizhixin.com 广告 & 商务合作:bd@jiqizhixin.com

上一篇:2020-06-12_学术界开放获取矛盾又起,MIT、爱思唯尔谈判宣告破裂 下一篇:2021-01-21_今年,淘宝年货节用一桌“地道菜”引爆全网

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价