全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-06-30_会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破

您的位置:首页 >> 新闻 >> 行业资讯

会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破 Caption: Rex-Thinker 的思考过程 在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。现有方法常被两大问题困扰: 决策过程不透明 (“黑箱” 预测)和 拒识能力不足 (对不存在物体输出错误结果)。 图 1:指代检测的应用场景实例 最近, IDEA 提出全新解决方案 Rex-Thinker ,首次将人类思维中的 “逻辑推理链” 引入视觉指代任务,让 AI 像人一样分步思考、验证证据,在权威测评中不仅准确率显著提升,更展现出强大的 “知之为知之” 能力! 项目主页: https://rexthinker.github.io/? 在线 Demo: https://huggingface.co/spaces/Mountchicken/Rex-Thinker Demo?论文地址: https://arxiv.org/abs/2506.04034 开源代码:https://github.com/IDEA-Research/Rex-Thinker 投稿人:Qing Jiang 投稿团队:IDEA-CVR 突破在哪?让 AI 学会 “思考三步走” 传统模型直接输出目标检测框,而 Rex-Thinker 创新性地构建了可解释的推理框架: 1. 规划 (Planning)拆解语言指令:“找到坐在乌龟上的人” → 分解为 “第一步找到乌龟 → 第二步判断每个人是否坐在乌龟上” 2. 验证 (Action)对每个候选目标(如 “Person 1”“Person 2”)逐步核对子条件, 每一步的分析都绑定图中具体区域 (比如 Person 1 就对应图中标号为 Person 的人) (见图 2) 3. 决策 (Summarization)汇总验证结果,输出匹配目标的坐标或声明 “未找到” 图 2: Rex-Thinker 推理示例 模型结构:基于检索的检测多模态模型设计 + CoT 推理 图 3: Rex-Thinker 模型结构 如图 3 所示,Rex-Thinker 在模型设计上,采用了基于检索策略,即先通过一个开集检测模型提取出所有的候选框,然后将候选框输入到模型中,然后模型对每个候选框进行推理,最后再输出答案,具体而言每个步骤为: 1. 候选框生成: 使用开放词汇检测器(如 Grounding DINO)提前检测出所有可能的目标区域,作为 Box Hint 输入; 2. 链式推理(CoT Reasoning): 给定候选框,模型逐个对比、推理,生成结构化思考过程 think.../think 和最终答案 answer/answer。整个过程的输入 prompt 如下所示: 图 4 . Rex-Thinker 的输入 prompt 构成。 3. 输出格式:最终输出标准化 JSON 格式的目标坐标,这种设计既规避了直接回归坐标的困难,也让每步推理有图像依据,提升可解释性和推理可信度。 训练流程:SFT 冷启动 + GRPO 后训练,打造强大推理能力 要让 AI 具备像人一样的推理能力,关键在于教会它怎么一步步思考。为此,Rex-Thinker 采用了两阶段训练策略,从构建高质量推理数据集开始。 图 5: HumanRef-CoT 数据集构造流程 1. 构建推理数据集 HumanRef-CoT 首先,团队在已有的 HumanRef 数据集(专注多人物指代)基础上,利用 GPT-4o 自动生成了 9 万条链式推理示例,构建了 HumanRef-CoT,主要特点包括: 完整推理链:每条样本严格按照「规划(Planning)- 验证(Action)- 总结(Summarization)」的推理流程生成。 多样化推理场景:覆盖单目标、多目标、属性组合、空间关系、交互行为等复杂描述; 拒答样本:特意加入了无匹配目标的描述,引导模型学会在必要时拒绝作答,提升抗幻觉能力。 这一数据集首次系统性地引入了推理链标注,为训练具有推理能力的视觉指代模型奠定了基础。 2. 两阶段训练策略 图 6. Rex-Thinker 采用的两阶段训练方法 (1)冷启动训练 首先在 HumanRef-CoT 数据集上进行监督微调(SFT),这个阶段主要帮助模型掌握基本的推理框架和输出规范。 (2)GRPO-based 强化学习后训练 有了基础推理能力后,进入关键的 GRPO 强化学习阶段,进一步提升推理质量与可靠性。通过引入 F1 准确率奖励 + 格式规范奖励 ,让模型自我优化推理路径。这一机制避免了单一推理路径训练可能带来的过拟合问题,促进了模型在推理策略上的多样性和泛化能力。 最终,GRPO 不仅提升了模型的推理精度,还显著增强了面对陌生类别、复杂描述时的鲁棒性和抗幻觉能力。如下图所示,模型在未见过的类别(热狗)也具备推理能力 图 7. Rex-Thinker 在 GRPO 后训练后泛化到任意物体 实验结果: SFT 赋予模型 CoT 能力, GRPO 提升模型泛化能力 在 HumanRef Benchmark 上,Rex-Thinker 展示了显著的性能提升。团队测试了三种模型版本: Rex-Thinker-Plain:只训练最终检测结果,没有推理监督; Rex-Thinker-CoT:加入思维链(CoT)监督,学会 “如何思考”; Rex-Thinker-GRPO:在 CoT 基础上,用 GRPO 强化学习进一步优化推理质量。 表 1 Rex-Thinker 在 HumanRef Benchmark 上的评测结果 如表 1 结果显示,加入 CoT 监督后,模型在各项指标上全面优于基础版本,平均提升 0.9 点 DF1 指标,尤其在 “拒识” 子集上的表现提升尤为明显,Rejection Score 提高了 13.8 个百分点,说明推理链的引入显著增强了模型对 “不存在目标” 的识别能力。进一步地,GRPO 训练在 CoT 基础上带来了额外性能提升,平均 DF1 提升至 83.5。相比单一推理路径的监督学习,GRPO 引导模型通过奖励机制探索更优推理路径,显著改善了复杂场景下的鲁棒性和判断准确性。 表 2 Rex-Thinker 在 RefCOCOg 数据集上的泛化结果 此外,在 RefCOCOg 数据集上的跨类别评估中,Rex-Thinker 同样表现出良好的迁移能力。在不进行任何针对性微调的情况下,模型仍能准确推理出目标位置,体现出良好的泛化能力。通过对 RefCOCOg 的少量 GRPO 微调,模型性能进一步接近甚至超过现有主流方法,验证了该方法在新类别和新任务中的可拓展性。 可视化结果 我们接下来展示一下 Rex-Thinker 的推理过程可视化,包括、每一步条件验证及最终决策输出。图中显著标注了模型在图像中如何逐步定位目标、如何识别条件是否满足,并最终输出结果或拒绝预测。这些可视化不仅体现了模型良好的目标理解能力,也突出了其推理路径的清晰性与可解释性。特别是在存在多个干扰项或不存在目标的场景中,Rex-Thinker 能够给出详尽的否定推理,展示出 “知之为知之,不知为不知” 的能力。这一能力在传统视觉模型中极为罕见,凸显了思维链机制在实际应用中的价值。 ? THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2019-05-16_「转」关于图算法 & 图分析的基础知识概览 下一篇:2021-04-17_元气森林道歉 , LVMH集团一季度收入大涨32%>>一周动态

TAG标签:

14
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价