全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2019-02-10_如何找到全局最小值?先让局部极小值消失吧

您的位置:首页 >> 新闻 >> 行业资讯

如何找到全局最小值?先让局部极小值消失吧 选自arXiv 作者:Kenji Kawaguchi、Leslie Pack Kaelbling 机器之心编译 参与:Geek AI、刘晓坤 通过添加一个神经元,就可以让一种二分类深度神经网络的损失函数局部极小值消失。早在去年 5 月就有人发现了这个有趣的结果,MIT 将其进一步推广到了更广泛的损失函数类。 目前,深度神经网络在计算机视觉、机器学习和人工智能等领域取得了巨大的实际成功。然而,从理论上对深度神经网络的理解相对于其在经验上的成功来说是较为缺乏的。在理论上,理解深度神经网络的一个主要难点是用于训练网络的目标函数的非凸性以及高维度。由于非凸性和高维度,能否保证深度神经网络在训练过后具有理想的性质,而不是陷入一个随机的糟糕的局部极小值点附近,往往还不清楚。实际上,寻找一个通用的非凸函数(Murty & Kabadi, 1987)以及用于训练特定种类神经网络的非凸目标函数(Blum & Rivest, 1992)的全局极小值是 NP-Hard 的问题,这引起了研究人员对高维问题的关注(Kawaguchi et al., 2015)。在过去,这类理论问题被认为是人们偏向于选择只需要进行凸优化的经典机器学习模型(无论带不带有核方法)的原因之一。尽管深度神经网络近来取得了一系列的成功,但始终绕不开一个问题:能否在理论上保证深度神经网络避开糟糕的局部极小值点? 近来,有许多研究分析了神经网络的训练中目标函数的变化情况和局部极小值。一些研究在假设深度神经网络被显著简化(Choromanska et al.,2015;Kawaguchi,2016;Hardt & Ma,2017)和显著过参数化(Nguyen & Hein,2017;2018)的条件下取得了积极的结果。对于仅仅包含一个隐藏层的浅层网络,已经取得了许多积极的结果,但往往带有很强的假设,例如,需要使用显著的过参数化处理、简化处理和高斯化的输入(Andoni et al., 2014; Sedghi & Anandkumar, 2014; Soltanolkotabi, 2017; Brutzkus & Globerson, 2017; Ge et al., 2017; Soudry & Hoffer, 2017; Goel & Klivans, 2017; Zhong et al., 2017; Li & Yuan, 2017; Du & Lee, 2018)。 除了强假设之外,深度神经网络中渐渐出现了两种明显的积极结果。首先,某些深度神经网络在损失处于所有局部极小值点时的性能已经被证明并不亚于相应的经典机器学习模型在全局最小值点的性能(Shamir, 2018; Kawaguchi & Bengio, 2018; Kawaguchi et al., 2018);通过不可忽略的残差表征(Kawaguchi & Bengio, 2018)以及对网络深度和宽度的增加,即使并没有经过显著的过参数化处理,也能够保证模型性能可以被进一步提升。其次,研究表明,增加一个神经元可以为一个带有特定类型的平滑的铰链损失(hinge loss)函数(Liang et al., 2018)的二分类器消除所有的次优局部极小值(即不是全局最小值的局部极小值)。第二种类型的结果已经被多篇不同的论文提及(Nguyen et al., 2018; Wang et al., 2018; Zhang et al., 2018)。然而,由于假设二分类问题带有特定的损失函数,目前这种技术还不适用于许多常见的深度学习任务,而这也正是该技术的一个主要的局限性(如 Fessler, 2018 的论文所述)。 在本文中,作者证明了,在没有任何强假设的情况下,对于带有任意损失函数的多分类、二分类以及回归任务,为每个输出单元增加一个神经元可以消除所有次优局部极小值。据作者所知,这是第一个在没有任何典型的未满足的假设的情况下,能够保证许多常见的深度学习任务没有次优局部极小值的结果。此外,作者还展示了用这种方法消除次优局部极小值的局限性。 论文:Elimination of All Bad Local Minima in Deep Learning 论文地址:https://arxiv.org/abs/1901.00279 摘要:本文从理论上证明了,对于带有一个任意的损失函数的多分类、二分类以及回归问题,我们可以通过向任意深度神经网络的每个输出单元添加一个神经元,消除所有的次优局部极小值。在任意加入了神经元的深度神经网络的每一个局部极小值处,可以保证原神经网络(不增加神经元)的参数设置可以使原神经网络处于全局极小值。本文证明了,新加入的神经元的作用效果可以自动地在每个局部极小值消失(从而不影响神经网络的输出)。与先有工作中的许多相关结果不同,我们的理论结果直接适用于常见的深度学习任务,因为这些结果仅仅依赖于在常见任务中自然成立的假设。此外,我们还提供了额外的理论结果和几个例子,讨论了以这种方式消除次优局部极小值的几个限制。 本文为机器之心编译,转载请联系原作者获得授权。 ?------------------------------------------------ 加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com 投稿或寻求报道:content@jiqizhixin.com 广告 & 商务合作:bd@jiqizhixin.com

上一篇:2023-11-28_ChatGPT提示词新玩法「make it more」,文生图效果翻倍 下一篇:2024-08-02_从 v1 到 v2:分享我 WorkQueue 项目重构的完整思路

TAG标签:

16
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价