2025-06-25_ICML 2025 Oral ｜从「浅对齐」到「深思熟虑」，清华牵头搭起大模型安全的下一级阶梯-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

ICML 2025 Oral ｜从「浅对齐」到「深思熟虑」，清华牵头搭起大模型安全的下一级阶梯本工作共同第一作者包括：张亦弛，清华大学计算机系三年级博士生，师从朱军教授，研究方向是多模态大模型和大模型安全，在CVPR、NeurIPS、ICML等顶会发表多篇论文，曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust；张思源，清华大学计算机系一年级硕士生，导师是苏航副研究员，研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。在大语言模型（LLM）加速进入法律、医疗、金融等高风险应用场景的当下，“安全对齐”不再只是一个选项，而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而，如今广泛采用的对齐方式，往往只是让模型在检测到风险提示时机械地回复一句“很抱歉，我无法满足你的请求”——这种表面看似“安全”的机制，实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为“浅对齐（Shallow Alignment）”[1]：模型的预测分布仅在回复开头做出了有效偏移，却从未真正理解潜在的风险语义。一旦越狱提示换个包装，模型就轻易“破防”；而过度依赖这类简单训练，也往往会牺牲模型在通用任务中的语言能力与响应质量，带来“安全 vs. 能力”的两难局面。越狱攻击可以绕过大模型安全护栏[2] 在这一背景下，清华团队突破了这一范式，率先将系统2思考引入大模型对齐，提出了融合自省推理的安全对齐框架STAIR。与其让模型学会“条件反射式的闭嘴”，不如让它真正学会思考之后再开口。STAIR通过三步走增强了对齐流程，验证了测试时扩展（Test-Time Scaling）对模型安全的贡献。在不降低通用能力的前提下，STAIR可以显著提升开源模型在越狱攻击下的鲁棒性，在StrongReject上超越了以安全著称的Claude3.5。它不止教模型“闭嘴”，而是教模型深入分析风险。它不再是安全与性能的零和博弈，而是将二者在推理下有机统一。STAIR的阶梯引领大模型安全对齐从本能拒答走向深度自省，从格式安全迈向思维安全。这篇题为ImprovingSafeTyAlignment withIntrospectiveReasoning的工作刚刚被ICML2025收录为Oral论文（录用率~1%）。而在STAIR的理论实践基础上，研究团队进一步推出了RealSafe-R1模型，率先针对开源的DeepSeek-R1模型进行安全对齐，可以在不牺牲模型推理能力的前提下大幅提升安全性。相关代码、训练数据、模型均已开源，详细算法和实验细节请参考原始论文。论文标题： STAIR: Improving Safety Alignment with Introspective Reasoning 论文链接： https://arxiv.org/abs/2502.02384 开源链接： https://github.com/thu-ml/STAIR 论文标题： RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability 论文链接： https://arxiv.org/abs/2504.10081 开源链接： https://huggingface.co/RealSafe 接下来，让我们一起“登梯”... 向安全对齐引入系统2思考当前安全对齐方法大多基于简短拒答的数据形式训练模型，使得模型隐式建立了危险输入到直接拒答的直觉性映射，类似于系统1快思考（System 1 Thinking）。研究者们受系统2慢思维（System 2 Thinking）提升模型推理能力的技术路线启发，设计了STAIR对齐框架，力求帮助大模型真正理解风险指令，进行系统化的自我思考和风险评估，而不是条件反射式地拒绝回答。从“本能拒绝”到“理性分析”的三步走 STAIR框架共包含三个阶段：结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展，能够在不具备推理能力的模型上，实现性能与安全的双效提升。阶段 1：结构化推理对齐第一阶段通过少量的结构化思维链数据进行有监督微调，使模型初步获得推理能力。研究者设计了一个分步式的输出格式，每一步推理都包括一个总结标题和详细描述，从而帮助模型在应对风险时能够逐步分析问题，并调用GPT-4o对安全和通用问题进行回复生成。模型在分步的内省深思后再正式输出明确的回答，该回答需要经过风险识别后，作出合理拒绝或给出无害信息。这一阶段的训练也为后续按步骤切分回答，进行树搜索和推理时搜索提供了基础。阶段 2：基于安全感知蒙特卡洛树搜索的自提升第二阶段使用蒙特卡洛树搜索的方式构造自采样的step-level偏序数据对，并使用DPO损失微调模型。研究者以每一个推理步骤/最终回答步骤作为一次动作，但与传统蒙特卡洛树搜索不同的是，为了同时优化模型的安全性和通用能力，在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供，即安全感知的蒙特卡洛搜索（Safety-Informed MCTS）。奖励函数的设计一共包括3个条件：安全优先条件，有用性双向条件，以及在仅考虑一个维度时能退化为原始蒙特卡洛搜索的条件。安全优先条件：安全回复总能获得比不安全回复更高的分数。有用性双向条件：当回复是安全时，越详细越有用则分数越高；当回复存在风险时，越能帮助解决问题则分数越低。单一维度退化条件：当只考虑安全性或有用性中的一个维度时，蒙特卡洛搜索的过程退化为使用对应分数的搜索。这可以保证多元评分不影响原有搜索框架的效果。基于以上条件，研究者通过理论推导，给出了一个满足要求的最简单形式的奖励函数：R(H, S) = S·H + 2S，其中分数由模型进行自我打分。在经过足够多轮的树搜索后，研究者使用阈值控制策略来采样step-level的偏序数据对，来提供细粒度的微调信号。整个采样-微调过程将进行多轮，每一轮使用不同的训练问题，以不断强化模型的推理能力和安全对齐程度。实验选用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型，利用从PKU-SafeRLHF（安全问答）、JailbreakV（越狱数据）和UltraFeedback（通用数据）三个主流数据集中采样的问题，对模型进行训练。在StrongReject、WildChat等安全评估和GSM8k、AlpacaEval等通用测试上的实验结果显示，经过前两阶段的微调，模型在安全性能上相比训练前获得了显著提升，同时更好地平衡了安全性能和通用性能。阶段 3：测试时扩展第三阶段是训练一个奖励模型，并指导语言模型进行测试时搜索。用于训练奖励模型的数据同样采自第二阶段的蒙特卡洛搜索树中，采样step-level数据和全程轨迹数据，并通过Bradley-Terry模型的优化目标微调过程奖励模型（process reward model）。后续基于该奖励模型给出的信号进行Best-of-N搜索或束搜索，实现锦上添花的效果。在Llama-3.1-8B模型上，结合束搜索，在StrongReject上达到了0.94的分数，显著超过多个主流商用模型，达到了与Claude-3.5相当的安全性能。这意味着推理增强的技术手段也可以在安全对齐上取得可靠的效果。安全与推理的有机统一，可以推动模型真正理解、分析并应对风险，在保障安全的同时保留语言能力与实用性。 RealSafe-R1的安全对齐实践在STAIR的理论基础上，研究团队进一步推出了RealSafe-R1模型，针对开源的DeepSeek-R1模型进行安全对齐。通过构建15,000条安全感知的推理轨迹，RealSafe-R1在提升模型安全性的同时，保持了其强大的推理能力，避免了传统方法中常见的性能损失问题[3]。具体地，研究者通过提示DeepSeek-R1在推理过程中注意安全风险，加强安全护栏，提升模型推理过程的安全性。经过一轮的有监督微调，各尺寸推理模型的安全性都得到了大幅提升，同时在数学、代码等推理任务上的表现不受影响，甚至在事实性方面也有一定改进。随着推理模型成为主流，已有不少工作研究推理模型的安全风险，也使其安全加固成为一个重要研究问题。STAIR框架提供了一条可行路径来赋能模型的深度安全对齐，以及在安全对齐时更好地维持其通用能力。期待相关领域未来进一步的研究与突破。参考文献 [1]Safety Alignment Should Be Made More Than Just a Few Tokens Deep [2]Jailbreaking Black Box Large Language Models in Twenty Queries [3]Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable ? THE END 转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com

上一篇：2023-06-30_大模型帮陶哲轩解题、证明数学定理：数学真要成为首个借助AI实现突破的学科了？

下一篇：2024-12-17_上周最受欢迎的十部作品｜新片场周榜单49期

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系