凯发天生赢家一触即发首页

搜索 猫眼影戏 融媒体矩阵
  • 山东手机报

  • 猫眼影戏

  • 公共网官方微信

  • 公共网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

联网搜索Agent,7B媲美R1,华为盘古DeepDiver开域信息获取新解法

2025-06-07 13:39:39
来源:

猫眼影戏

作者:

许蓓

手机检察

  猫眼影戏记者 欧阳硕 报道w3u7903ejky2ywls

机械之心宣布

机械之心编辑部

大型语言模型 (LLM) 的生长日新月异 ,但实时「内化」与时俱进的知识仍然是一项挑战 。如何让模型在面对庞大的知识密集型问题时 ,能够自主决策获取外部知识的战略?

华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型 ,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式 ,使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1 ,并优于 DeepResearcher、R1-Searcher 等业界同期事情!

论文链接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf

arxiv 链接:https://arxiv.org/abs/2505.24332

该项研究的主要发明如下:(1)关于庞大信息获取任务 ,端到端 Agentic RL 训练相比直接蒸馏老师轨迹能更好地实现 Search Intensity Scaling ,从而带来平均 10 PCT 效果提升;(2)基于真实互联网搜索 API 和数据集进行训练 ,相比基于 Wikipedia ,能够学到更多有效推理模式;(3)基于 Search Intensity Scaling ,DeepDiver 的检索和推理能力可以从客观题泛化至主观生成任务 。

下文将详细解读 DeepDiver 的立异之处 ,包括其数据构建要领 ,Agentic RL 训练历程 ,以及 Search Intensity Scaling 如何带来显著性能提升 。

为什么要提出 DeepDiver?

目今 RAG 技术主要分为两大流派:

Prompt-based 要领:如 FLARE [1]、Search-o1 [2] 等 ,通过庞大 prompt 流程指导模型 ,优势在于即插即用 ,但缺乏灵活性和智能性 。SFT-based 要领:如 Self-RAG [3]、AutoRAG [4] 等 ,通过构建人工合成数据教会模型拆解问题、生成检索词 ,但行为方法、获取信息的战略完全取决于 SFT 数据漫衍 ,泛化能力有限 。

随着 DeepSeek-R1 [5] 和 OpenAI-o1 的崛起 ,基于强化学习的 RAG 要领逐渐受到关注 。然而 ,ReSearch [6]、Search-r1 [7] 等事情主要基于 Wikipedia 语料构建 ,保存两大问题:

LLM 预训练已内化大宗 Wiki 知识 ,使得模型不需真正检索就能回覆问题Wiki 情况过于「洁净」 ,缺乏真实互联网的噪声和信息冲突 ,这使得目前主流的基于 wiki 情况的 LLM 会主动地学习如何收集要害信息 ,但如何解决冲突 ,如何在真实互联网情况中去噪验证信息真实度 ,以及如何反思和纠正内容等高阶能力则会被忽略 。

这些受限的训练语料和情况 ,阻碍了 LLM 学习动态地决定何时何地进行搜索 ,以及如何凭据需求调解搜索深度和频率 。研究团队将这种缺失的能力界说为Search Intensity Scaling (SIS)—— 一种在充满模糊、信息冲突的高噪音情况下 ,LLM 为了突破困境而涌现出的信息检索能力 ,通过 SIS ,模型会凭据问题难易水平动态的调解搜索频率和深度 ,而不是妥协于验证缺乏的谜底上 。为此 ,研究团队认为只有在真实互联网情况下 ,用真实互联网数据进行探索式训练 ,才华使模型涌现真正的高阶信息检索和推理能力 。

图 1:四种要害信息搜索行为示意图:

(a) 收集要害信息 ,(b) 解决冲突 ,(c) 验证与去噪 ,(d) 反思与纠正

WebPuzzle

真实互联网情况下的高质量数据集

为了让模型能够使用真实的互联网数据进行训练 ,本文提出了 WebPuzzle 。

来看几个 WebPuzzle 中的问题示例:

他是一名 NBA 状元秀球员 ,他曾效力于 76 人、掘金、活塞等队 ,他入选了最佳新秀一阵 ,然而他没拿到过总冠军 ,他有凌驾 170 + 次数的两双数据 ,他是谁?-- 谜底: Joe Smith (艾佛森并不满足两双数据的描述)她凭借多个经典古装角色深入人心 ,她一经签约了外洋的唱片公司推出过多语种音乐专辑 ,她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录 ,更令她凭此剧斩获某电视节最高奖项 ,她是谁?-- 谜底:刘亦菲2020 年 10 月至 2024 年 4 月期间 ,华为公司与孝感市政府进行了频频相助洽谈?每次洽谈的主要领导是谁?-- 谜底:2 次洽谈 ,第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云 。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯 。

实验用搜索引擎解答这个问题 ,会发明需要多轮搜索和推理才华得出正确谜底 。

数据收集与处理

WebPuzzle 主要从两个数据源屎厕:

Wiki 猜谜类数据:研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料 ,在语料中选取特定实体作为谜底 ,然后罗列出与该实体有关的特性作为谜面 ,再将其中部分特性隐藏化、模糊化(如示例中的「凌驾 170 + 次数」 ,「签约了外洋的唱片公司」划分代表「172 次两双数据」 ,「签约了日本的唱片公司」) ,增加解题难度 。真实用户问题:基于现网真实用户问题及其搜索返回结果 ,构建多篇网页交叉验证的问题 。

图 2:WebPuzzle 数据构建流程 ,包括候选生成和难度标注两个主要阶段

测试集经过了人工标注后 ,最终版 WebPuzzle 包括 24k 训练样本和 275 条高质量评测样本 ,涵盖差别难度品级的跨页问答和猜谜题目 。

DeepDiver 训练流程

迭代检索与强化学习在真实互联网情况下的结合

DeepDiver 基于迭代式 RAG 框架构建 ,该框架要求模型在收到用户请求后 ,自行在多个轮次交替式的推理和搜索 ,具体来说 ,在每个轮次中:

1. 推理 (Reasoning):针对历史轮次进行反思、推理、总结

2. 决策:凭据推理的内容 ,决策目今轮次是搜索 (Search) 或回覆 (Answer)

整体训练流程分为两个主要阶段:

冷启动阶段 (Cold-start SFT)

通过蒸馏 teacher 模型的回复 ,使模型掌握基本的解题套路 。使用 5.2k 高质量数据对模型进行开端训练 ,包括:

2k WebPuzzle 数据2.2k 通用推理数据 (数学、逻辑推理等)1k 真实用户问题与搜索结果拼接数据

强化学习阶段 (Reinforcement Learning)

在冷启动模型的基础上 ,使用 GRPO 算法让模型自主探索 ,对高质量探索路径给予奖励 。这一历程完全由 outcomereward 信号引导 ,没有 distillation 或 SFT 范式的 step-wise 数据干预 。

图 3:DeepDiver 训练流程概览 ,包括 rollout 生成和 GRPO 模型更新

Reward 机制设计

DeepDiver 接纳了两种互补的奖励函数设计:

1. 宽松奖励 (训练初期):使用 0-10 分评分标准 ,模型输出满足部分条件 (得分≥6) 即可获得奖励 ,稳定训练初期 。

2. 严格奖励 (训练后期):模型回覆需通过三轮严格评估 ,每轮由三个差别 LLM grader 校验 ,只有至少 2 轮校验通过的情况下才会给予奖励 。实验展示出严格奖励在训练后期有助于突破训练瓶颈 。

针对搜索引擎使用 ,研究团队设计了特别奖励机制:当一组 rollouts 中所有不使用搜索的实验都失败 ,而如果有使用搜索的实验乐成时 ,给予这些 rollout 特别奖励 ,纠正模型太过依赖内部知识的倾向 。

实验结果

7B DeepDiver 媲美 671B DeepSeek-R1

主要评测结果

研究团队在 WebPuzzle 及多个基准上进行了评测 ,包括 C-simpleQA [8]、FRAMES-zh [9] 和 Bamboogle-zh [10] ,结果令人振奋:

表 1:各模型在差别数据集上的体现比照 ,括号中的数字体现搜索轮次

三大概害发明:

1.DeepDiver 大幅优于蒸馏模型:在 WebPuzzle 上 ,DeepDiver-Pangu-7B 达 38.1% ,远远凌驾了蒸馏版本的模型 ,提升明显;使用了同样训练要领的 DeepDiver-Qwen2.5-7B 准确率达 37.6% ,比 R1 蒸馏版提升近 8 个百分点;这说明了基于真实互联网的强化学习情况和训练语料能够大幅提升模型的信息索取能力 。

2.Search Intensity Scaling 带来性能奔腾:DeepDiver 展现出明显的 Search Intensity Scaling Up 的趋势 ,DeepDiver 为了弥补自己内部知识的缺乏 ,使用的平均搜索轮次会显著高于 baseline ,直接推动准确率提升 。

3.优异的跨任务泛化能力:虽然模型主要在 WebPuzzle 上训练 ,但在其他数据集上同样体现卓越 ,验证了整个 DeepDiver 框架和 SIS 带来的强大的泛化能力 。

图 4:训练阶段搜索轮次与奖励值的相关性 ,搜索强度增加陪同训练奖励上升

深入剖析

Search Intensity Scaling 的魅力

排除知识影象因素的公正比照

在主试验中 ,研究团队发明 DeepDiver 在非 WebPuzzle 的榜单上尽管提升明显 ,可是仍然落后于 DeepSeek R1 , QwQ 等模型 。该团队提出一个问题 ,DeepDiver 落后于这些模型究竟是因为 Information Seeking 的能力不如这些 Baseline ,照旧因为这些 Baseline 的参数量较大 ,预训练阶段已经内化了这些榜单的知识源?

为验证 DeepDiver 在信息检索方面的真实能力 ,他们设计了「公正比照」实验:排除模型仅靠内部知识就能回覆的问题 ,只比较需要外部检索的问题上的体现 。

图 5:排除内部知识可解问题后的评估结果比照

结果标明 ,在难以通过内部知识解决的问题上 ,DeepDiver 逾越或匹敌所有基线模型 ,甚至包括 DeepSeek-R1 。这证实了 DeepDiver 在 WebPuzzle 完整数据集上未能全面逾越 671B 基线模型的主要原因 ,是参数规模而非检索能力限制 。而关于检索能力自己而言 ,DeepDiver 则体现出了很是强大的能力 ,能够让 7B 模型与超大规模 LLM 性能相当 。

与基于 Wiki 情况和语料的训练要领的同期事情的比照

为了与同期事情进行比照 ,尽管 DeepDiver 完全使用中文训练 ,研究团队仍在英文基准测试中借助英文搜索引擎进行了评估 ,并与同期事情进行比较 ,如下表所示 ,其中 R1-Searcher 是基于 Wiki 情况和语料训练 ,DeepResearcher 是基于 Wiki 语料和真实搜索情况训练:

表 2:英文评估数据集上使用英文搜索引擎情况的比照结果

结果显示 ,基于真实互联网语料和情况训练的 DeepDiver ,尽管没有在训练中接触英文训练语料和搜索情况 ,DeepDiver 凭借 SIS 在绝大大都任务上仍逾越了基于 Wiki 训练的基线模型 ,凸显了 SIS 的强大性能息争决难题时的适应能力 。

搜索强度与问题难度的关系

DeepDiver 展现出卓越的搜索强度自适应能力 ,随着问题难度增加 ,模型会增加搜索轮次:

表 3:WebPuzzle 差别子集的性能体现

特别是与 DeepSeek-R1 相比 ,DeepDiver 在超难子集上取得显著领先:平均 2.6 轮搜索带来 3.7 个百分点的优势 ,而 DeepSeek-R1 仅使用 1.59 轮搜索就妥协于一个不那么令人满意的结果 。

两阶段奖励函数设计的要害作用

在训练历程中 ,研究团队发明后期性能常陷入瓶颈 。通过比照差别奖励函数的效果 ,他们得出重要结论:

图 6:差别奖励函数的训练效果 ,宽松奖励稳定初期训练 ,严格奖励突破后期瓶颈

宽松奖励有助于稳定强化学习初期阶段 ,而严格奖励则能在后期突破性能瓶颈 。切换到严格奖励后 ,WebPuzzle 上的得分提高了近 9 个百分点(从 29.1% 升至 37.6%) 。

开放式长文问答任务的惊人泛化

DeepDiver 仅在 WebPuzzle 关闭式问题上训练 ,但能够精彩泛化到开放式问答任务:

表 4:ProxyQA 数据集上的体现比照

在长文生成评测基准 ProxyQA 上 ,DeepDiver 得分达 32.72% ,比 R1 蒸馏模型横跨 9.47 个百分点 ,同时生成更长、更全面的回覆 ,展现出卓越的知识密集型长文生成能力 。在没有 cherry picking 的情况也能一眼看出 DeepDiver 和蒸馏模型生成结果的区别 。

Information-Seeking 种种行为剖析和统计

研究团队详细统计了差别模型在种种数据集上的信息搜索行为:

表 5:多个模型在 WebPuzzle 和基于 wiki 数据集上的行为统计

结果标明 ,WebPuzzle 比现有 Wiki 数据集更具挑战性 ,需要更庞大的信息搜索行为 。而 DeepDiver 模型相比其他基线模型体现出更多样化和庞大的信息搜索行为 ,展示了在真实网络情况中训练的优势 。

未来展望与局限性

尽管 DeepDiver 获得了正向的实验结果 ,但研究团队仍然认识到以下几点局限和未来研究偏向:

1.WebPuzzle 的连续演化:随着 LLM 预训练的不绝扩展 ,如何连续构建有效的 benchmark 来适配与时俱进的 LLM ,是一项恒久挑战 。

2. 开放式任务的 RL 框架优化:为开放式问题设计更有效的 RL 框架 ,解决长文生成等任务的奖励设计难题 。

3. 冷启动 SFT 与 RL 的动态衔接:探索自适应流程 ,让 LLM 按需动态地从 SFT 切换到 RL ,提升训练效率 。

4. 工具生态的扩展:除搜索引擎外 ,扩充浏览器引擎、Python 解释器、外地知识库等工具 ,进一步增强信息获取能力 。

5. 模型规模和序列长度的扩展:基于昇腾平台 ,在更大模型规模上进行验证 ,推动产品应用和落地安排 。

6. SIS 影响机制的系统性剖析:探究基座模型能力、训练数据组成、算法设计等多种要害因素对实现 SIS 效果的影响纪律 ,深入剖析和进行消融实验 。

总结

DeepDiver 系统地探讨了 LLM 在真实互联网情况下解决知识密集型问题的能力 。通过强化学习与真实互联网搜索引擎的结合 ,该研究实现了 Search Intensity Scaling ,使模型能凭据任务难度自适应调解搜索强度 。在 WebPuzzle 和多项基准测试中 ,7B 规模的 DeepDiver 展现出与 671B DeepSeek-R1 相当的体现 ,验证了该要领的有效性 。Agentic RL 训练技术在 Agent 生长中逐步显现出重要价值 ,本事情提供了搜索引擎情况下的具体参考 。

References:

[1] Jiang, Z., Xu, F. F., Gao, L., Sun, Z., Liu, Q., Dwivedi-Yu, J., ... & Neubig, G. (2023, December). Active retrieval augmented generation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 7969-7992).

[2] Li, X., Dong, G., Jin, J., Zhang, Y., Zhou, Y., Zhu, Y., ... & Dou, Z. (2025). Search-o1: Agentic search-enhanced large reasoning models. arXiv preprint arXiv:2501.05366.

[3] Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023, October). Self-rag: Learning to retrieve, generate, and critique through self-reflection. In The Twelfth International Conference on Learning Representations.

[4] Kim, D., Kim, B., Han, D., & Eibich, M. (2024). AutoRAG: automated framework for optimization of retrieval augmented generation pipeline. arXiv preprint arXiv:2410.20878.

[5] Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.

[6] Chen, M., Li, T., Sun, H., Zhou, Y., Zhu, C., Wang, H., ... & Chen, W. (2025). Research: Learning to reason with search for llms via reinforcement learning. arXiv preprint arXiv:2503.19470, 2 (3).

[7] Jin, B., Zeng, H., Yue, Z., Yoon, J., Arik, S., Wang, D., ... & Han, J. (2025). Search-r1: Training llms to reason and leverage search engines with reinforcement learning. arXiv preprint arXiv:2503.09516.

[8] He, Y., Li, S., Liu, J., Tan, Y., Wang, W., Huang, H., ... & Zheng, B. (2024). Chinese simpleqa: A chinese factuality evaluation for large language models. arXiv preprint arXiv:2411.07140.

[9] Krishna, S., Krishna, K., Mohananey, A., Schwarcz, S., Stambler, A., Upadhyay, S., & Faruqui, M. (2024). Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation. arXiv preprint arXiv:2409.12941.

[10] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N. A., & Lewis, M. (2022). Measuring and narrowing the compositionality gap in language models. arXiv preprint arXiv:2210.03350.

??时事1:精品Pron㊙️一区二区入口

??06月07日,外贸企业持续享惠 北京海关累计签发RCEP原产地证书近万份,

  最后 ,祝 乡镇各项事业生长进步 ,祝列位代表、同志们:身体健康 ,事情顺利 ,万事如意!

,69免费看片视频 。

??06月07日,文化中国行丨在大巴扎听“海”的声音,

  狈村的人露出不敢相信的神色 ,他们深知 ,狈风神力惊人 ,照旧少年 ,周遭几千里内就已少有比肩者 ,而现在却不可占据上风 。

,大奉打更人星辰影视免费播放,91在线在线啪永久地址,动漫❌c🐻 。

??时事2:delicate霉霉

??06月07日,CBA常规赛:北京北汽止步六连胜 客场负吉林,

  “吼……”大吼声惊天动地 ,它撞在了金色的大爪子上 ,电闪雷鸣 ,照亮了黑暗的天空 ,景象骇人 。

,男同❌无尽❌高潮,3D动漫云缨被❌羞羞网站,同人漫画❌18网站在线观看 。

??06月07日,2024年中日韩青年峰会在首尔开幕,

  一、当好村干部应当重点提升七种能力

,狠狠的挺进貂蝉的小泬小说,少女的惩罚游戏2.0版本更新内容,美女扒开㊙️让男人桶爽吻戏 。

??时事3:扒开裙子美女狂揉动漫

??06月07日,(乡村行·看振兴)从田间爬上餐桌 江西彭泽小龙虾“链”成大产业,

  众人晕菜 ,这个小工具怎么什么都不知道 ,难道真的是从原始老林子里跑出来的?

,斯嘉丽·约翰逊露胸裸体,茜特拉莉黄本无删减动漫,Gay瘦老头互吃XX 。

??06月07日,上海市政协十四届二次会议开幕,

  精璧大爷的笑容马上凝固了 ,等你研究透了 ,那得几十年啊 ,我还能看到那一天吗?另有 ,你个小兔崽子 ,我不叫精璧!

,蔡文姬劈开腿露出屁股,男女动漫黄,巨胸爆乳❌❌❌在线看 。

??时事4:黄景瑜裸体实干12次

??06月07日,戴维斯杯男网团体赛将激战广州 中国队派出“五虎上将”,

  “这是一头恶灵 ,我会想步伐将它除掉!”小不点语气坚定 ,再三向族人包管 ,绝不会逞一时之勇 ,如果差池头 ,他会立刻逃遁 。

,大乳美女裸体漫画,70hin浓毛老妇HD,日本做爰无遮A片免费 。

??06月07日,张之臻组合挺进2024澳网男双四强,

  (五) 贯彻既定战略:要继续贯彻好“立足广东、牢固基地、深耕两翼”的广东市场战略和“西征、北上、东拓”的全国市场战略 ,整合全国市场资源 ,在牢固重点市场基础上 ,有效拓展新市场 ,广东市场重在提高占有率 ,全国市场重在扩大笼罩率 ,切实改变*市场集中度过高的现状 ,为实现*品牌的全国化目标迈出坚实的一步 。

,相泽南IPX-557无删减版,女人又爽又黄又硬野战,美杜莎被❌到爽的游戏 。

责编:隋涌

审核:梅纳赫姆·贝京

责编:卢晓光

相关推荐 换一换

Copyright (C) 2001-   dzwww.com. All Rights Reserved

新闻信息效劳许可证 - 音像制品出书许可证 - 广播电视节目制作经营许可证 - 网络视听许可证 - 网络文化经营许可证

山东省互联网传媒集团主办  联系电话:0531-85193202  违法不良信息举报电话:0531-85196540

鲁ICP备09023866号-1   鲁公网安备 37010202000111号  

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

网站地图