2023-12-13_用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习机器之心专栏机器之心编辑部如何让LLM “忘记” 学到的有害内容？随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生有害回复？如何快速删除训练数据中的版权保护内容？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化学习的方式来对 LLM 进行微调 (Finetuning)，也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ，从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集；(2) 计算资源的限制。字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。本文研究如何在 LLM 上进行 “遗忘” 操作，即忘记有害行为或遗忘学习（Machine Unlearning），作者展示了遗忘学习在三种 LLM 对齐场景上取得的明显效果：(1) 删除有害输出；(2) 移除侵权保护内容；(3) 消除大语言 LLM 幻觉。遗忘学习有三个优势：(1) 只需负样本（有害样本），负样本比 RLHF 所需的正样本（高质量的人工手写输出）的收集简单的多（比如红队测试或用户报告）；(2) 计算成本低；(3) 如果知道哪些训练样本导致 LLM 有害行为时，遗忘学习尤为有效。作者证明，如果从业者只有较少的资源，因此优先考虑的是停止产生有害输出，而不是试图产生过于理想化的输出，遗忘学习尤为便利。尽管只有负样本，研究表明，和 RLHF 相比，只使用 2% 的计算时间下，遗忘学习仍可以获得更好的对齐性能。论文地址：https://arxiv.org/abs/2310.10683 代码地址：https://github.com/kevinyaobytedance/llm_unlearn 使用场景本方法可以在资源有限的情况下，最大程度发挥优势。当没预算请人员写优质样本，或计算资源不足时，应当优先停止 LLM 产生有害输出，而不是试图让其产生有益输出。有害输出造成的损害远不是有益输出能弥补的。如果一个用户问 LLM100 个问题，他得到一个有害答案，就会失去信任，不管后来 LLM 能给多少有益答案。有害问题的预期输出可以是空格、特殊字符、无意义字符串等，总之，一定要是无害文本。文中展示了 LLM 遗忘学习的三个成功案例：(1) 停止生成有害回复（图一）；这与 RLHF 情境相似，区别是本方法目标是生成无害回复，而不是有益回复。当只有负样本时，这是能期望的最好结果。(2) LLM 使用侵权数据训练后，在作者要求下，成功删除数据，且考虑到成本因素不能重训 LLM；(3) LLM 成功忘记 “幻觉”。图一方法在微调 step t，LLM 更新如下：第一项损失为梯度上升（graident descent），目的为忘记有害样本: 为有害提示 (prompt)，为对应的有害回复。整体损失反向提升了有害样本的损失，即让 LLM “遗忘” 有害样本。第二项损失为随机误配，强制 LLM 在有害提示上预测无关回复。类似于分类里的标签平滑（label smoothing [2]）。目的是 LLM 更好的忘记有害提示上的有害输出。同时实验发现能增加 LLM 正常输出的性能。第三项损失为在正常任务上维持性能：同 RLHF 类似，在预训练 LLM 上计算 KL 散度能更好保持 LLM 性能。此外，所有的梯度上升和下降都只在输出（y）部分做，而不是像 RLHF 在提示 - 输出对（x, y）上。应用场景：忘却有害内容等本文用 PKU-SafeRLHF 数据作为遗忘数据，TruthfulQA 作为正常数据，图二显示了遗忘学习后 LLM 在忘却的有害提示上输出的有害率。文中使用的方法为 GA（梯度上升和 GA+Mismatch：梯度上升 + 随机误配）。遗忘学习后的有害率接近于零。图二图三显示了未见过的有害提示（未被忘却过）上的输出。即使在没有忘却过的有害提示上，LLM 的有害率也接近于零，证明 LLM 忘记的不仅仅是具体见过的样本，而是泛化到了包含有害这个概念的内容。图三同时 LLM 在正常样本上的性能和忘却前保持类似。表一展示了生成的样本。可以看到在有害提示下，LLM 生成的样本都是无意义字符串，即无害输出。表一该方法在其他场景（如忘却侵权内容和忘却幻觉）的应用原文中有详细描述。 RLHF 比较表二显示了该方法和 RLHF 的比较，这里 RLHF 已经用了正例，而遗忘学习的方法只有负例，所以比较一开始本方法就占劣势。但即便如此，遗忘学习也能取得和 RLHF 相似的对齐性能。表二图四显示了计算时间的比较，本方法只需 RLHF 2% 的计算时间。图四尽管只有负样本，遗忘学习的方法仍能达到和 RLHF 相似的无害率，而且只使用 2% 的算力。因此如果目标是停止输出有害输出，遗忘学习比 RLHF 更高效。结论该研究首次探索了 LLM 上的遗忘学习。本文的结果表明，遗忘学习是一种有希望的对齐方法，特别是当从业者没有足够的资源时。论文展示了三种情境：遗忘学习可以成功删除有害回复、删除侵权内容和消除错觉。研究表明，尽管只有负样本，遗忘学习仍可在只用 RLHF 计算时间的 2% 的情况下，获得和 RLHF 相近的对齐效果。参考文献 [1] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744. [2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. "When does label smoothing help?" Advances in neural information processing systems 32 (2019). ?THE END 转载请联系本公众号获得授权

上一篇：2024-11-18_可以实现零代码开发的OPPO智能体平台，到底强在哪？

下一篇：2018-03-20_实话告诉你，Logo十年前就能走秀了

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系