全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-05-05_全新神经网络架构KAN一夜爆火!

您的位置:首页 >> 新闻 >> 行业资讯

全新神经网络架构KAN一夜爆火! 来源:量子位 一种全新的神经网络架构KAN,诞生了! 与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。 比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。 不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~ 在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。 而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类的习惯偏差或领域知识非常容易。 来自MIT、加州理工学院、东北大学等团队的研究一出,瞬间引爆一整个科技圈:Yes We KAN! 甚至直接引出关于能否替代掉Transformer的MLP层的探讨,有人已经准备开始尝试…… 有网友表示:这看起来像是机器学习的下一步。 让机器学习每个特定神经元的最佳激活,而不是由我们人类决定使用什么激活函数。 还有人表示:可能正处于某些历史发展的中间。 GitHub上也已经开源,也就短短两三天时间就收获1.1kStar。 对MLP“进行一个简单的更改”跟MLP最大、也是最为直观的不同就是,MLP激活函数是在神经元上,而KAN把可学习的激活函数放在权重上。 在作者看来,这是一个“简单的更改”。 从数学定理方面来看,MLP的灵感来自于通用近似定理,即对于任意一个连续函数,都可以用一个足够深的神经网络来近似。 而KAN则是来自于 Kolmogorov-Arnold 表示定理 (KART),每个多元连续函数都可以表示为单变量连续函数的两层嵌套叠加。 KAN的名字也由此而来。 正是受到这一定理的启发,研究人员用神经网络将Kolmogorov-Arnold 表示参数化。 为了纪念两位伟大的已故数学家Andrey Kolmogorov和Vladimir Arnold,我们称其为科尔莫格罗夫-阿诺德网络(KANs)。 而从算法层面上看,MLPs 在神经元上具有(通常是固定的)激活函数,而 KANs 在权重上具有(可学习的)激活函数。这些一维激活函数被参数化为样条曲线。 在实际应用过程中,KAN可以直观地可视化,提供MLP无法提供的可解释性和交互性。 不过,KAN的缺点就是训练速度较慢。 对于训练速度慢的问题,MIT博士生一作Ziming Liu解释道,主要有两个方面的原因。 一个是技术原因,可学习的激活函数评估成本比固定激活函数成本更高。 另一个则是主观原因,因为体内物理学家属性抑制程序员的个性,因此没有去尝试优化效率。 对于是否能适配Transformer,他表示:暂时不知道如何做到这一点。 以及对GPU友好吗?他表示:还没有,正在努力中。 天然能解决大模型灾难性遗忘再来看看KAN的具体实现效果。 神经缩放规律:KAN 的缩放速度比 MLP 快得多。除了数学上以Kolmogorov-Arnold 表示定理为基础,KAN缩放指数也可以通过经验来实现。 在函数拟合方面,KAN比MLP更准确。 而在偏微分方程求解,比如求解泊松方程,KAN比MLP更准确。 研究人员还有个意外发现,就是KAN不会像MLP那样容易灾难性遗忘,它天然就可以规避这个缺陷。 好好好,大模型的遗忘问题从源头就能解决。 在可解释方面,KAN能通过符号公式揭示合成数据集的组成结构和变量依赖性。 人类用户可以与 KANs 交互,使其更具可解释性。在 KAN 中注入人类的归纳偏差或领域知识非常容易。 研究人员利用KANs还重新复现了DeepMind当年登上Nature的结果,并且还找到了Knot理论中新的公式,并以无监督的方式发现了新的结不变式关系。 △DeepMind登Nature研究成果Deepmind的MLP大约300000 个参数,而KAN大约只有200 个参数。KAN 可以立即进行解释,而 MLP 则需要进行特征归因的后期分析。并且准确性也更高。 对于计算要求,团队表示论文中的所有例子都可以在单个CPU上10分钟内重现。 虽然KAN所能处理的问题规模比许多机器学习任务要小,但对于科学相关任务来说就刚刚好。 比如研究凝固态物理中的一种相变:安德森局域化。 好了,那么KAN是否会取代Transformer中的MLP层呢? 有网友表示,这取决于两个因素。 一点是学习算法,如 SGD、AdamW、Sophia 等—能否找到适合 KANs 参数的局部最小值? 另一点则是能否在GPU上高效地实现KANs层,最好能比MLPs更快。 最后,论文中还贴心的给出了“何时该选用KAN?”的决策树。 那么,你会开始尝试用KAN吗?还是让子弹再飞一会儿~ 项目链接: https://kindxiaoming.github.io/pykan/ 论文链接: https://arxiv.org/abs/2404.19756 参考链接: [1]https://twitter.com/ZimingLiu11/status/1785483967719981538 [2]https://twitter.com/AnthropicAI/status/1785701418546180326 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-计算机视觉技术交流群! 大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。 进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明) ??长按识别,邀请您进群!

上一篇:2025-05-04_前端对接微信扫码登录:从踩坑到填坑的全记录 下一篇:2025-04-08_颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价