全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-01-21_「转」重磅,开源大模型 RWKV 元始智能已完成种子轮融资!

您的位置:首页 >> 新闻 >> 行业资讯

重磅,开源大模型 RWKV 元始智能已完成种子轮融资! 训练出千亿模型依然是 RWKV 当下最能证明自己的事情。作者丨张 进 编辑丨陈彩娴 AI科技评论独家获悉,开源LLM RWKV背后的元始智能,种子轮融资已于1月16日走完工商变更,由陆奇于2018年创立的奇绩创坛和某匿名投资者投资,目前元始智能已开始继续融第二轮。 RWKV是国产开源的首个非Transformer架构的大语言模型,目前已经迭代到第六代RWKV-6。它的作者彭博在2022年5月开始训练RWKV-2,当时只有1亿(100M)参数规模,后续在2023年3月训练了RWKV-4 140亿(14B)参数版本。 RWKV-5的15亿和30亿参数版本已发布,且70亿参数版本会在2024年1月发布。而RWKV-6的15亿和30亿参数版本将在2024年2月发布,然后将继续训练70亿和140亿参数版本。 RWKV-5和RWKV-6系列的特点是,支持全球100+种语言,也支持几十种编程语言,目前可以在 https://www.rwkv.com/页面上的链接,体验在线Demo。 彭博香港大学物理系本科毕业,此前在香港对冲基金做过多年的量化交易,也在深圳做过智能硬件。在2020年,因为对AIGC小说生成感兴趣,他在优化GPT的过程中设计了RWKV。在模型架构上,RWKV创新性地将GPT Transformer改写成推理更快的RNN形式,同时依然保持了Transformer的并行训练能力和性能。 彭博6岁开始编程,拥有30多年编程经验,迄今RWKV的基底模型都是由他一个人训练的。他认为,大模型被少数公司垄断会对于人类存在风险,所以训练出RWKV后便开源了,目的是想创建一个更开放的模型生态。 彭博的AI宇宙世界观是,现在人类正处于与 AI逐步开始对决的时刻。彭博从量子物理的角度认为,人类或许只是宇宙实现某个更高目标的工具。因此,如果 AI 比人类更适应宇宙的目标,最终宇宙就会选择 AI 代替人类,这是对于人类的危险之处。 目前RWKV的Discord社群在海外拥有8000多个开发者,他们来自美国、欧洲、亚洲、中东等等。国内开源社区有五个QQ群,拥有上万人。 RWKV 元始智能联合创始人罗璇告诉AI科技评论,奇绩创坛投为什么投他们——主要是认为非 Transformer架构的RWKV可能会给大模型带来更多创新与突破。 在Transformer一统大模型天下的今天,有部分人觉得换不同架构能打破Transformer当下的瓶颈。 国际头部科技公司也在寻求不同的路径。在2022年2月时, OpenAI就注意到了RWKV和彭博,给他发去入职访谈邀请信。彭博在当时还没成立商业公司,但他立即回信婉拒了。他认为目前的OpenAI过于封闭,他希望做更开放的事情,所以给出的回复是“如果以后OpenAI愿意做开源的大模型,欢迎合作”。 罗璇表示,基础模型RWKV会一直开源,目前已经放到了Linux基金会下属的LF AI & Data 孵化(https://lfaidata.foundation/projects/rwkv/),借此让RWKV被更多人看见。 目前,RWKV团队有近十人,且正在继续招聘,目标是15至20人的规模。而基底模型的训练由彭博一个人负责,其他人会做模型应用、微调、优化、多模态、生态建设等工作。 对于RWKV团队来说,彭博希望在训练千亿级别模型前,先将模型的架构优化到最好,这样算力资源可以得到更好的运用。“现在RWKV-6架构代表了非transformer架构的最前沿水准,正在设计第7代模型的架构”。在将架构做到极致后,由于RWKV从1亿到140亿参数的性能提高曲线(scaling law)稳定,且训练过程稳定,因此千亿模型的训练只需有算力就能完成。 团队未来主攻三件事:1.训练出千亿模型;2.做infra,会将端侧的高效运行作为infra的一个切入点,跟高通、英特尔、联发科等芯片大厂(他们在2023年底的发布会都写明了与RWKV的合作)合作去推动模型落地到端侧设备上,比如手机、PC、车载;3.孵化应用和生态。 国内已经有一些公司在尝试用RWKV来训练模型,国外拿RWKV开源进行创业,拿到融资的,据罗璇了解已经超过10家。 在过去一年里,RWKV已经在To C、To B都有落地,To C主要在Agent、游戏、音乐生成、角色扮演领域;To B包括银行、律所等。 据罗璇透露,此次融资的钱主要用于工具栈建设、孵化生态、孵化应用,模型训练主要靠赞助和合作,现在最大的阻碍是需要更多算力,所以训练出千亿模型仍然是他们当前最具挑战性的任务。 推荐阅读 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2024-04-08_【招聘】欢迎投递:breathe、bangX、Creado 拾众广告 下一篇:2024-06-05_「人工智能教父」Hinton:那些年和徒弟Ilya在一起的日子

TAG标签:

14
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价