2023-03-19_「转」Nature子刊｜不确定性驱动、用于主动学习的动力学用于自动采样-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

Nature子刊｜不确定性驱动、用于主动学习的动力学用于自动采样转载来源：ScienceAI Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样 http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247494392&idx=1&sn=48e1ff20deef1df4fbf787761bc2715c&scene=45#wechat_redirect 将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑| 绿萝原子间势（interatomic potential）是凝聚态物质中原子与原子间相互作用的势能。是 2011 年公布的材料科学技术名词。机器学习 (ML) 模型，如果针对高保真量子模拟的数据集进行训练，可以产生准确高效的原子间势。主动学习 (AL) 是迭代生成不同数据集的强大工具。在这种方法中，ML 模型提供了不确定性估计及其对每个新原子构型（configuration）的预测。如果不确定性估计超过某个阈值，则该构型将包含在数据集中。近日，来自美国洛斯阿拉莫斯国家实验室的研究人员制定了一种策略：主动学习的不确定性驱动动力学 (uncertainty-driven dynamics for active learning，UDD-AL)，以更快地发现有意义地扩充训练数据集的构型。UDD-AL 修改了分子动力学模拟中使用的势能面，以支持存在较大模型不确定性的构型空间区域。UDD-AL 的性能在两个 AL 任务中得到了证明。该研究以「Uncertainty-driven dynamics for active learning of interatomic potentials」为题，于 2023 年 3 月 6 日发布在《Nature Computational Science》上。 ML 模型的一个特殊优势是，在针对高保真量子化学模拟的大型和多样化数据集进行训练时，可以稳健地表示分子和材料系统的势能面。然而，无论 ML 模型架构多么复杂，训练数据的质量和多样性对于最终的模型准确性仍然至关重要。 AL 尝试在 ML 模型最不确定的区域扩展数据集，从而更快地改进模型。AL 的另一个特点是它可以使用具有物理意义的动态轨迹来对构型进行采样。在此，研究人员演示了如何保持 AL 的这些优势，同时加快新数据收集的速度。 AL 旨在迭代收集各种训练数据集，以解决 ML 模型预测中发现的任何弱点。为此，有必要估计模型预测的不确定性。对于具有 NN 潜力的 AL，一个行之有效的实用策略是「基于委员会的查询」 (query by committee，QBC)。在 QBC 策略中，如果观察到这个整体方差很大，那么训练集将增加新的量子模拟数据。 AL 估计在每次迭代时为基础采样器生成的结构预测的属性的不确定性。分子动力学 (MD) 是对具有化学意义的势能表面进行采样的最流行方法。元动力学（Metadynamics）是一种有效的势能面探索方法，它基于集体变量 (CV) 的概念运作。但这种方式不适用于自动采样。 UDD-AL 在这里，遵循 QBC 和集合不确定性的思想，提出了一种偏向于高不确定性区域的 AL 采样算法——不确定性驱动动力学 (uncertainty-driven dynamics，UDD)。图示：甘氨酸测试用例的 UDD-AL 和 MD-AL 方法比较。（来源：论文）UDD-AL 相对于常规高温采样的主要优势在于，UDD-AL 有助于对重要的代表性不足的化学数据进行采样，而不会出现高温条件引起的随机结构失真。此功能可用于对温度敏感或亚稳态系统的构象、构型空间进行有效采样。测试还表明，偏置电位（bias potential）可以促进高能化学空间的采样，而不会牺牲低能构型的采样。这意味着 UDD 将产生适用于低能、近 GM（global energy minimum）数据和高能化学空间的强大数据集，这些数据通常对应于重要的反应结构数据，例如过渡态和中间体。未来研究的一个主题可能是在 UDD-AL 数据上训练的 ML 电位与加权集成方法的接口，以获得化学反应的途径和速率。两个测试用例研究人员通过两个测试用例证明了所提方法的价值。首先，UDD-AL 用于甘氨酸分子的构象采样。发现偏置电位技术生成了涵盖低能和高能区域的多样化数据集。图示：UMAP 降维技术处理的甘氨酸构象空间的二维表示。（来源：论文）在甘氨酸测试用例中，因为所有模型都使用相同的超参数，所以如果进行单独的超参数搜索，每个模型都有可能表现得更好。涵盖更广泛化学空间的数据集可能需要更多可学习的参数才能足够灵活，以适应它们正在接受训练的有效更大的自由度。这将是未来研究的课题。接下来，研究人员进一步研究了 UDD 的性能和可转移性，用于对较大分子（乙酰丙酮烯醇互变异构体）中的反应途径进行采样。在这里，没有使用 AL 技术，而是使用一组预训练的 ANI-1x 原子间势，它们没有接受过键断裂反应的训练，并分析了 UDD 和 MD 模拟的轨迹。图示：乙酰丙酮中的集合不确定性和 UDD。（来源：论文）研究发现，在低温条件下使用乙酰丙酮进行的测试中，观察到偏置电位以鼓励对与质子转移相关的相空间进行采样。发现与常规高温 MD 相比，偏置电位技术鼓励反应过渡，对系统中其他自由度的分布几乎没有失真。 UDD-AL 的意义与局限结果表明，基于不确定性的偏置电位是一种很有前途的技术，可用于对罕见事件进行采样，同时相对「忠实」于物理平衡分布。UDD 在使用偏置电位方面类似于元动力学。然而，与元动力学相比，UDD 的一个显著优势是 UDD 避免了手动选择 CV 或识别吸引力区域的需要，这需要大量的领域专业知识和反复试验。在某种程度上，它为 AL 的目的定义了最佳 CV：训练更通用和更强大的 ML 潜力。 UDD-AL 的主要限制是该方法需要选择两个参数：偏置幅度和宽度。在该研究中，这些参数是依赖于上下文的，并根据感兴趣的势垒的高度和偏差/真实原子间力的比率来选择的。然而，开发一种可以通过算法调整这些的方法将是一项富有成效的未来活动。当使用线性偏置函数而不是指数函数时，也许这个问题可以简化为只选择一个参数——偏置幅度。此外，用于自动选择不确定性标准的算法可以提高采样效率。论文链接：https://www.nature.com/articles/s43588-023-00406-5 人工智能×[生物神经科学数学物理化学材料 ] 「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。欢迎关注标星，并点击右下角点赞和在看。点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

上一篇：2018-05-20_学界｜在有池化层、1步幅的CNN上减少冗余计算，一种广泛适用的架构转换方法

下一篇：2025-04-14_「转」宝矿力文案卖惨？在国内生存艰难？

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系