2025-09-28_最新两篇论文，把Deep Research讲透了!-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

最新两篇论文，把Deep Research讲透了! 来源：PaperAgent 前几天，阿里开源了Tongyi DeepResearch，热度很高，目前14.1k star了。那么关于Deep Research背后更全面的技术栈都有哪些？今天分享两篇最新的Deep Research技术综述：传统大模型虽然强大，但受限于静态知识边界，面对开放、动态、复杂的科研任务时往往力不从心。为此，Deep Research应运而生：一种让智能体主动探索、动态推理、生成可靠报告的代理研究新范式。它不再是“问答机”，而是“能自己找资料、写综述、做分析”的AI研究员。 ?? Deep Research 的四大核心模块一个完整的 Deep Research 系统应包括以下四个阶段：模块功能关键挑战Planning将用户问题拆解为可执行的研究子目标如何生成结构化、可解释的研究路径？Question Developing为每个子目标生成多样化、上下文相关的检索查询如何平衡查询的准确性与覆盖度？Web Exploration主动调用搜索引擎、浏览网页、提取信息如何过滤冗余、识别可信来源？Report Generation整合证据，生成结构清晰、事实可靠的报告如何控制结构一致性与事实一致性？图1：Deep Research 系统架构概览 ?? Planning（研究规划）? 目标将模糊、开放的研究问题转化为可执行的研究计划，如子问题、检索顺序、证据整合策略。 ?? 方法分类类别方法示例特点结构化世界知识Simulate Before Act、WebPilot利用外部知识图谱或模拟器进行预演可学习规划AgentSquare、MindSearch通过RL或搜索自动优化规划策略?? Question Developing（问题演化）? 目标将每个子目标转化为多个高质量检索查询，提升信息召回率与相关性。 ?? 方法分类类别方法示例特点奖励优化类DeepResearcher、R1-Searcher用RL优化查询生成策略监督驱动类ManuSearch、SearchAgent-X基于规则或多Agent协作生成查询?? Web Exploration（网页探索）? 目标主动与网页交互，检索、浏览、提取、过滤信息，支持多轮迭代。 ?? 方法分类类型方法示例特点网页AgentWebGPT、WebVoyager模拟人类浏览行为，支持点击、表单、导航API检索Bing/Google Search API快速、稳定，适合结构化查询?? Report Generation（报告生成）? 目标将碎片化证据整合为结构清晰、逻辑连贯、事实可靠的研究报告。 ?? 方法分类类别方法示例特点结构控制Agent Laboratory、WebThinker通过大纲、约束、模板控制生成结构事实一致性FaithfulRAG、DRAGged引入冲突检测、证据对齐、引用验证机制?? 优化：如何让 Deep Research 更靠谱？传统的大模型问答=“背答案”；真正的深度研究=多步规划 → 问题演化 → 工具调用 → 结构化报告。 SFT/DPO 只能“模仿”人类轨迹，无法闭环利用环境反馈（搜索失败、网页失效、预算超限）。 RL 用轨迹级奖励直接优化“端到端任务成功”，天然契合“工具-交互”研究场景。方法优化目标数据形式关键短板SFT模仿单步(q, a) 对暴露偏差、无法纠错DPO偏好排序(q, a?, a?)无状态、信用分配短视RL最大化回报(q, τ, r)需可验证奖励+探索策略数据：RL的“燃料”怎么炼？提出Construct → Curate → Curriculum三段式流水线：策略代表工作核心技巧跨文档合成WebPuzzle、R-Search把新鲜新闻+arXiv聚类→生成多跳问题，防止“背参数”图结构生长CrawlQA、WebSailor从维基/GitHub 根节点随机游走→按路径长度自动标难度难度变换E2HQA、StepSearch用 LLM 迭代给原问题加约束，控制“跳数”与“证据密度”Figure 3：四级复杂度Level特征示例数据集L1单点检索SimpleQAL2线性多跳HotpotQAL3高不确定性+复杂图SailorFog-QAL4多模态+多工具WebWatcher奖励：拿什么信号训练“Agent”？结果奖励（Outcome-only）经典指标：EM/F1、LLM-as-Judge新花样：GBR（Gain-Beyond-RAG）：相比“无脑 top-k RAG”的边际提升；Evidence-Utility：用冻结 LLM只看收集到的证据能否答对；Group 相对节俭：同批次正确轨迹里检索次数最少得 bonus。步骤奖励（Step-level）工具执行奖励：MT-GRPO 给“成功调用+返回含答案片段”即时 bonus；信息增益 - 冗余惩罚：StepSearch 用余弦增量衡量每轮收获；多模态步骤：Visual-ARFT 对每轮图片裁剪→OCR→代码打分。信用分配（Credit Assignment）粒度做法代表轨迹级整条 τ 用 GAESearch-R1回合级每轮混合即时+终端奖励MT-GRPOToken 级工具调用边界挂奖励ARTIST开源系统：让RL训练“跑得动”长工具链 = 高延迟 + 大显存 + 策略过期。2025 新框架亮点： https://arxiv.org/pdf/2509.06733ReinforcementLearning Foundations for Deep Research Systems: A Surveyhttps://arxiv.org/abs/2508.12752DeepResearch: A Survey of Autonomous Research Agents·················END················· 分享收藏点赞在看

上一篇：2025-06-05_半年时间拿到大厂offer，全靠这本《大模型算法》通关……

下一篇：2022-10-24_霜降海报合集：吃甜柿，赏暮秋

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系