全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-07-24_九天GUI Agent模型登顶国际榜单榜首!

您的位置:首页 >> 新闻 >> 行业资讯

九天GUI Agent模型登顶国际榜单榜首! 近日,中国移动九天人工智能研究院研发的端侧自主智能体模型(JT-GUIAgent-V2)登顶AndroidWorld自主智能体动态基准评测榜单榜首! 中国移动九天人工智能研究院(以下简称“九天研究院”)研发的端侧自主智能体模型JT-GUIAgent-V2,在谷歌AndroidWorld自主智能体动态基准测试国际榜单中,任务成功率(Success Rate pass@1)达到67.2%,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驱动的多个GUI Agent框架和模型,位列榜单Top1!这标志着中国移动在端侧复杂智能体系统的人机交互技术方面达到了国际领先水平。 GUI Agent(图形用户界面智能体)是一种前沿的人工智能代理系统,它通过融合集成计算机视觉、自然语言处理和强化学习等多种AI核心技术,能够自动推理并执行UI交互,它能够像人类用户一样,通过图形用户界面感知操作环境,模拟人类完成跨平台任务,理解并执行在图形界面上的各种操作指令,如点击、输入、拖拽、读取界面信息等,实现用户要求的复杂任务自动化处理。这种技术突破有效解决了传统人工操作的效率瓶颈。简单来说,GUI Agent就像端侧的“自动驾驶系统”,能够代替用户与各种软件应用进行自动地交互,显著提高了工作效率和用户操作体验。 然而,GUI Agent在实际应用中面临三大核心技术挑战:一是如何准确感知理解动态多变的多模型UI界面,二是如何对复杂长链条任务做到高效推理,三是在任务执行过程中如何做到自动纠偏处理。这些技术难题的解决不仅依赖计算机视觉、自然语言等单一技术领域的突破,而且需要多模态融合与持续学习的协同创新,对现有AI技术体系提出了全方位的严苛要求。 JT-GUIAgent-V2两大创新 为此,JT-GUIAgent-V2在架构设计和智能规划上实现了全面升级。相比1个月前发布的V1版本,新版本在自然语言指令理解、UI元素多模态感知、目标任务识别推理以及自动化执行等方面实现了全方位能力跃迁,真正实现了"任务自动观察-自主思考-自动执行"的全链路闭环,其核心技术优势体现在以下两大创新: 一是自主构建两阶段的协同框架。创新设计全局规划智能体(Planner)和感知定位智能体(Grounder)两阶段协同框架。Planner专注高阶策略规划,显著提升复杂任务推理能力和环境适应性;Grounder则确保界面元素的精准识别与操作执行,二者协同形成完整决策闭环。 二是创新性地引入经验驱动的智能规划方法,通过实时融合用户指令解析与应用操作经验,实现系统的动态决策优化,带来三个方面的性能和效果显著提升: 1)规划精准化 :引入经验检索机制,实时匹配用户意图与应用特征,避免规划冗余或陷入错误循环; 2)错误最小化:有效减少模型“认知盲区”,解决不常见图标识别、隐藏手势调用等技术难题; 3)任务通用化:通过可扩展的应用经验积累,提升模型在新任务上的执行准确率。 AndroidWorld是由Google研究人员联合发布的一个功能完备的Android环境,为自主智能体提供了一个具有高专业性和权威性的基准测试平台。其特点在于: 1.环境真实:构建了包含20款主流Android应用程序的完整功能环境。 2.任务多样:精心设计了涵盖日程管理、信息交流、系统设置等日常活动的116项任务,高度模拟真实用户场景。 3.评测严谨:每项任务均配备标准化初始化、严格的成功判定机制及清理逻辑,确保评测结果的高可重复性与可比性。 4.能力全面:重点考察智能体对自然语言指令的理解深度、与动态UI的精准交互能力、复杂任务的高效完成度以及应对任务参数变化的鲁棒性。 GUI Agent应用前景 GUI Agent的强大功能使其在众多领域拥有广阔的应用前景。例如, 在生活服务场景中,用户提出语音和文本交互指令,GUI Agent能够在用户授权许可应用(如携程、大众点评、12306等)中实现跨应用操作,给用户在多个APP界面的复杂操作提供了全新解决方案; 在办公场景中,用户只需通过语音或文字向GUI Agent下达指令,如“打开文档并将其中的关键数据整理成表格发送给团队成员”,它便能自动完成从打开办公软件、定位文档、提取数据到制作表格并发送邮件的一系列操作,无需用户手动逐一操作; 在财务应用中,GUI Agent能够自动读取和整理各类财务数据,生成财务报表,降低人工操作带来的错误风险和时间成本;在软件开发过程中,GUI Agent可用于自动化软件测试,模拟各种用户操作,快速检测软件的稳定性和兼容性; 在工业生产中,GUI Agent可用于自动化控制系统,根据生产指令自动操作设备、监控生产流程,实现生产过程的智能化和自动化,提高生产效率和产品质量。 GUI Agent作为大模型落地的关键使能技术,融合了意图理解、环境感知、自主决策与交互执行等综合智能能力,未来在智能终端、智能网联汽车、智能机器人等信息消费“新三样”领域具有广阔的应用前景。 九天GUI Agent本次登顶AndroidWorld榜单,充分体现了九天研究院在自主智能体方面的技术实力,更代表了中国移动在智能时代对用户服务需求和业务体验方面的深刻洞察和主动创新。 未来,中国移动九天人工智能研究院将持续探索更先进的GUI Agent架构与算法,重塑人机交互协作模式,为广大用户带来智能化、便捷化、个性化的全新信息服务新体验。

上一篇:2025-07-09_AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;飞书重磅发布多款AI新品 下一篇:2025-02-15_OpenAI 深度研究将免费开放!ChatGPT 这个新功能竟能颠覆信息获取?

TAG标签:

20
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价