全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-04-16_挑战Transformer,国产新架构RWKV,最新进展。。。。

您的位置:首页 >> 新闻 >> 行业资讯

挑战Transformer,国产新架构RWKV,最新进展。。。。 来源:量子位不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展: 提出了两种新的RWKV架构,即Eagle(RWKV-5)和Finch(RWKV-6)。 这两种序列模型以RWKV-4架构为基础,然后作了改进。 新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。 同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。 团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。 目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~ 新模型Eagle和Finch此次更新的RWKV,共包含6个模型,分别是: 4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小; 2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。 Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。 Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。 此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。 最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。 其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。 而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。 其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。 基准测试结果如何?光有架构创新还不够,关键要看模型的实际表现。 来看看新模型在各大权威评测榜单上的成绩—— MQAR测试结果MQAR(Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。 在这类任务中,模型需要通过给定的多个查询来检索相关的信息。 MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。 下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。 可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。 长上下文实验在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。 (所有模型均基于上下文长度4096进行预训练)。 测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。 速度和显存基准测试速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。 可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。 多语言任务表现日语西班牙语阿拉伯语日语-英语下一步工作以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》。 论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。 共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。 还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。 他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。 目前,彭博在Github有2.1k的followers。 但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。 并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。 量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。 接下来,RWKV的重点工作将放在以下几个方向: 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项); 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。 论文链接: https://arxiv.org/pdf/2404.05892.pdf 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研 奖金675万!3位科学家,斩获“中国诺贝尔奖”! 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法! 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2021-05-30_「转」MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶 下一篇:2024-04-25_「转」用佳能CINEMA EOS打造现实主义短片《鸽子》

TAG标签:

22
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价