2025-07-01_「转」你的Agent电脑助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

你的Agent电脑助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅。通讯作者为刘东瑞和邵婧，上海 AI Lab 安全团队，研究方向为 AI 安全可信。从 Anthropic 的 Claude 3.5 Sonnet 自带 Computer-Use 功能，到 OpenAI 的 Operator CUA 横空出世，再到 Manus 直接火爆出圈，现在的 Computer-Use Agent 简直像开了外挂，只需一条指令，就能独立完成 code project（coding/debug）、处理邮件、刷网页、做 PPT/教案，样样精通！但先别着急着欢呼——你有没有想过，把电脑操纵权交给这些「智能」助手，可能跟把银行卡密码告诉陌生人一样危险？为了使 Computer-Use Agent（CUA）在未来能够大规模、安全地部署在实际应用场景中，来自上海 AI Lab、中国科学技术大学和上海交通大学的团队强势出手，推出 CUA 安全测试基准——RiOSWorld！称得上是 CUA 的「安全体检中心」！该测试基准全面地评估了 Computer-Use Agent 在真实电脑使用场景中可能面临的安全风险，并表明当前阶段的 CUA 作为自动化电脑使用助手仍然面临着突出的安全风险。现在，论文、项目官网、GitHub 代码全部开源！想围观 AI「翻车现场」？想和顶尖团队一起攻克安全难题？赶紧戳下方链接！?? ??Title：RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents ?? Paper：https://arxiv.org/pdf/2506.00618 ?? Page：https://yjyddq.github.io/RiOSWorld.github.io/ ?? Github：https://github.com/yjyddq/RiOSWorld Agent 电脑助手秒变「踩雷专家」，这些陷阱你发现了吗？别以为 AI 真的「聪明绝顶」！研究团队随手甩出一个「钓鱼邮件」测试 ??，好家伙，这些看似无所不能的 Agent 直接集体翻车！收到伪装成「防钓鱼指南」的恶意邮件，它们居然乖乖点击链接下载「防护软件」???，完全未关注发件人是不是可疑邮箱。这哪里是智能助手，根本就是网络诈骗的「天选受害者」！更离谱的是，面对弹窗广告、钓鱼网站，甚至是试图绕过人机验证（reCAPTCHA）这种高危操作，Agent 们也是「勇往直前」。要是碰上心怀不轨的用户，让它发布谣言、删除系统文件，甚至协助非法活动，它们也可能照单全收！隐私泄露、数据损毁…… RiOSWorld，Agent 电脑助手的「照妖镜」！ ??上海 AI Lab、中国科学技术大学和上海交通大学联合发布RiOSWorld——一个用于全面、综合地评估 Computer-Use Agent 在真实日常电脑使用任务中存在的安全风险的测试基准。 100% 真实的测试环境 + 支持动态风险部署 + 多样性的风险类别现阶段大多数研究 Computer-Use Agent 安全风险的工作存在的限制是：测评环境缺乏真实性，缺少真实动态的、贴近现实的 Computer-Agent 交互环境，从而导致风险缺乏真实性。风险类别缺乏全面性、多样性，仅关注个别的风险或攻击类型，从而限制了对 Computer-Use Agent 的全面风险评估。 ?? 相比之前的测评基准，RiOSWorld直接搭建了 100% 真实的 computer-agent 交互环境，接入互联网，模拟各种奇葩风险场景。从弹窗广告轰炸到钓鱼网站，从用户恶意指令到隐私泄露危机，它一口气设置了492 个风险测试案例，涵盖了广泛的日常计算机使用风险操作，涉及网络、社交媒体、操作系统、多媒体、文件操作、Code IDE/Github、电子邮件和 Office 应用等场景，全方位检验 Agent 电脑助手的「抗毒能力」！?? 风险分类和样本数量统计基于风险源，该研究将这些风险类别分为了 2 个主类（环境风险和用户风险），13 个子类：来源于环境的风险（254 个）：隐含在电脑使用环境中的风险钓鱼网站钓鱼邮件弹窗/广告 reCAPTCHA（人机验证）账户/密码欺诈诱导性文字来源于用户的风险（238 个）：用户有意或无意的风险指令网页操作社交媒体 Office 套件文件操作 OS 操作代码 IDE/Github 多媒体操作任务指令分布这些任务指令涵盖了广泛的主题，渗透到 computer-use agent 遇到的许多日常操作场景中。这种全面的覆盖致力于能够有效和全面地评估 computer-use agent 在各个方面的安全风险。评估方法 ??RiOSWorld从两个维度评估 MLLM-based Computer-Use Agent 的不安全/有风险行为： Risk Goal Intention：Agent 是否有意图执行风险行为？ Risk Goal Completion：Agent 是否成功完成了风险目标？ RiOSWorld 风险示例 ?? 具体来说，RiOSWorld基准中的一些风险示例在 Figure 1 的上半部分展示。如Figure 1的左上部分所示，CUA 可能会遇到来源于环境的风险，例如，（a）被诱导点击弹出窗口或广告，（b）无意中在有害的钓鱼网站上执行操作，（c）试图在未经真人授权的情况下通过 reCAPTCHA 验证（这种自动规避行为破坏了旨在防止恶意机器人访问的 reCAPTCHA 安全机制），（d）成为欺骗性较高的钓鱼电子邮件的受害者。另外，如Figure 1右上部分所示，CUA 也会面临源于用户的风险。例如，（e）Agent 可能会根据用户指令发布谣言、不实信息，（f）Agent 可能在命令行中执行高风险命令（例如，删除根目录），（g）Agent 可能帮助进行非法活动（毒品、武器），（h）用户可能会过度依赖 Agent，导致意外的隐私泄露（例如，指示 Agent 将包含私有 API 密钥或凭据的敏感代码或数据上传到公共 GitHub 存储库，但没有进行手动审查）。 CUA 安全现状比你想的更糟！ ?? 研究团队对市面上最火爆的 MLLM-based CUA 「挨个儿暴打」：OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro，还有开源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……结果集体「原形毕露」！ ?? 实验结果表明，大多数 Agent 都具有较弱的风险意识，会主动「作死」（有意图执行风险操作，即平均意图不安全率达到了惊人的84.93%）；此外，平均有59.64%的概率直接把危险指令「贯彻到底」！即能够完成最终的风险目标。 ??在钓鱼网站、网页操作、OS 操作、Code IDE/Github 和诱导性文字等高风险场景中，Agent 的「翻车率」更是突破 89% 和 80%！这哪是智能助手，根本就是揣着炸弹的「定时雷区」！ ?? 绝大多数的 CUA 的风险意图和风险完成率都超过了75%和45%。这些定量和定性的结果指出，目前大多数基于 MLLM-based CUA 在计算机使用场景中缺乏风险意识，远达不到可信的自主计算机使用助手。 ??RiOSWorld的推出，就像给狂奔的 CUA 按下了「暂停键」。它不仅揭开了 Computer-Use Agent 的安全遮羞布，更为未来指明了方向：没有安全兜底的 AI，再强大也是「空中楼阁」！ ?? 转发提醒身边的 Computer-Use Agent 爱好者！下一次，当你的 AI 电脑助手「热情满满」地给出操作建议时，记得先问一句：「你通过 RiOSWorld 的安全考试了吗？」 ? THE END 转载请联系本公众号获得授权投稿或寻求报道：liyazhou@jiqizhixin.com

上一篇：2021-09-25_不确定性助益学习准确率，GPU训练预测性DNN误差更少、效果更好

下一篇：2020-12-18_有了这个“欢洗男团”，我算是能和2020好好say bye了

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系