全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-09-28_最新两篇论文,把Deep Research讲透了!

您的位置:首页 >> 新闻 >> 行业资讯

最新两篇论文,把Deep Research讲透了! 来源:PaperAgent 前几天,阿里开源了Tongyi DeepResearch,热度很高,目前14.1k star了。 那么关于Deep Research背后更全面的技术栈都有哪些?今天分享两篇最新的Deep Research技术综述: 传统大模型虽然强大,但受限于静态知识边界,面对开放、动态、复杂的科研任务时往往力不从心。为此,Deep Research应运而生: 一种让智能体主动探索、动态推理、生成可靠报告的代理研究新范式。 它不再是“问答机”,而是“能自己找资料、写综述、做分析”的AI研究员。 ?? Deep Research 的四大核心模块一个完整的 Deep Research 系统应包括以下四个阶段: 模块功能关键挑战Planning将用户问题拆解为可执行的研究子目标如何生成结构化、可解释的研究路径?Question Developing为每个子目标生成多样化、上下文相关的检索查询如何平衡查询的准确性与覆盖度?Web Exploration主动调用搜索引擎、浏览网页、提取信息如何过滤冗余、识别可信来源?Report Generation整合证据,生成结构清晰、事实可靠的报告如何控制结构一致性与事实一致性?图1:Deep Research 系统架构概览 ?? Planning(研究规划)? 目标将模糊、开放的研究问题转化为可执行的研究计划,如子问题、检索顺序、证据整合策略。 ?? 方法分类类别方法示例特点结构化世界知识Simulate Before Act、WebPilot利用外部知识图谱或模拟器进行预演可学习规划AgentSquare、MindSearch通过RL或搜索自动优化规划策略?? Question Developing(问题演化)? 目标将每个子目标转化为多个高质量检索查询,提升信息召回率与相关性。 ?? 方法分类类别方法示例特点奖励优化类DeepResearcher、R1-Searcher用RL优化查询生成策略监督驱动类ManuSearch、SearchAgent-X基于规则或多Agent协作生成查询?? Web Exploration(网页探索)? 目标主动与网页交互,检索、浏览、提取、过滤信息,支持多轮迭代。 ?? 方法分类类型方法示例特点网页AgentWebGPT、WebVoyager模拟人类浏览行为,支持点击、表单、导航API检索Bing/Google Search API快速、稳定,适合结构化查询?? Report Generation(报告生成)? 目标将碎片化证据整合为结构清晰、逻辑连贯、事实可靠的研究报告。 ?? 方法分类类别方法示例特点结构控制Agent Laboratory、WebThinker通过大纲、约束、模板控制生成结构事实一致性FaithfulRAG、DRAGged引入冲突检测、证据对齐、引用验证机制?? 优化:如何让 Deep Research 更靠谱?传统的大模型问答=“背答案”; 真正的深度研究=多步规划 → 问题演化 → 工具调用 → 结构化报告。 SFT/DPO 只能“模仿”人类轨迹,无法闭环利用环境反馈(搜索失败、网页失效、预算超限)。 RL 用轨迹级奖励直接优化“端到端任务成功”,天然契合“工具-交互”研究场景。 方法优化目标数据形式关键短板SFT模仿单步(q, a) 对暴露偏差、无法纠错DPO偏好排序(q, a?, a?)无状态、信用分配短视RL最大化回报(q, τ, r)需可验证奖励+探索策略数据:RL的“燃料”怎么炼?提出Construct → Curate → Curriculum三段式流水线: 策略代表工作核心技巧跨文档合成WebPuzzle、R-Search把新鲜新闻+arXiv聚类→生成多跳问题,防止“背参数”图结构生长CrawlQA、WebSailor从维基/GitHub 根节点随机游走→按路径长度自动标难度难度变换E2HQA、StepSearch用 LLM 迭代给原问题加约束,控制“跳数”与“证据密度”Figure 3:四级复杂度Level特征示例数据集L1单点检索SimpleQAL2线性多跳HotpotQAL3高不确定性+复杂图SailorFog-QAL4多模态+多工具WebWatcher奖励:拿什么信号训练“Agent”?结果奖励(Outcome-only)经典指标:EM/F1、LLM-as-Judge新花样:GBR(Gain-Beyond-RAG):相比“无脑 top-k RAG”的边际提升;Evidence-Utility:用冻结 LLM只看收集到的证据能否答对;Group 相对节俭:同批次正确轨迹里检索次数最少得 bonus。步骤奖励(Step-level)工具执行奖励:MT-GRPO 给“成功调用+返回含答案片段”即时 bonus;信息增益 - 冗余惩罚:StepSearch 用余弦增量衡量每轮收获;多模态步骤:Visual-ARFT 对每轮图片裁剪→OCR→代码打分。信用分配(Credit Assignment)粒度做法代表轨迹级整条 τ 用 GAESearch-R1回合级每轮混合即时+终端奖励MT-GRPOToken 级工具调用边界挂奖励ARTIST开源系统:让RL训练“跑得动”长工具链 = 高延迟 + 大显存 + 策略过期。2025 新框架亮点: https://arxiv.org/pdf/2509.06733ReinforcementLearning Foundations for Deep Research Systems: A Surveyhttps://arxiv.org/abs/2508.12752DeepResearch: A Survey of Autonomous Research Agents·················END················· 分享 收藏 点赞 在看

上一篇:2025-06-05_半年时间拿到大厂offer,全靠这本《大模型算法》通关…… 下一篇:2022-10-24_霜降海报合集:吃甜柿,赏暮秋

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价