啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

9306点击 2025-03-20 09:48

摘要：本文介绍了Search-R1技术，这是一项通过强化学习训练大语言模型进行推理并利用搜索引擎的创新方法。实验表明，Search-R1在Qwen2.5-7B模型上实现了26%的性能提升，使模型能够实时获取准确信息并进行多轮推理。本文详细分析了Search-R1的工作原理、训练方法和实验结果，为AI产品开发者提供了重要参考。

需要特别注意：本论文在主要对比实验中存在实验结果与实际测试不符的情况。论文中描述DeepSeek-R1模型在回答关于Britney Spears香水的问题时给出错误答案，而我实际测试显示，该模型在不同平台上都能够正确回答该问题（包括API运行）。读者在参考该论文结论时应当保持审慎态度。

特别声明：论文实验结果与实际不符

本文需要特别指出，该论文（2025年3月13日发布于ArXiv）在关键对比实验中存在明显不一致。论文中关于DeepSeek-R1模型表现的描述与实际运行结果有重大出入。

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

论文中使用了"Curious is a women's fragrance by a singer born in what city and state?"这一问题作为主要对比案例，并声称DeepSeek-R1模型给出了错误答案"Houston"（暗示将Britney Spears误认为是Beyoncé）。

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

然而，我在2025年3月19日对多个平台上的DeepSeek-R1模型进行了实际测试，结果显示：

DeepSeek官方网站的R1模型

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

字节火山平台的R1模型

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

腾讯豆包平台的R1模型

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

以上所有平台的DeepSeek-R1模型均正确回答了"McComb, Mississippi"（Britney Spears的出生地），与论文中描述的结果完全相反。

这一发现引发了修猫对论文实验设计和数据可靠性的质疑。本文仅客观呈现这一事实，后续我将专门撰文对此进行详细分析与评论。读者在参考该论文结论时，应当保持审慎态度。

AI幻觉：LLM的挑战与Search-R1的创新

如果你正在开发AI产品，你一定遇到过一个普遍存在的挑战——AI幻觉。这种现象指的是模型生成看似合理但实际上不准确或虚构的内容，它像是AI世界中需要克服的认知盲点。

当用户询问"2023年诺贝尔物理学奖得主是谁"时，模型可能会自信地给出一个错误答案。更值得注意的是，它还会添加大量细节，让这个错误显得无比真实。这种现象不仅是准确性问题，也关乎用户信任。在医疗诊断、法律咨询或金融决策等关键领域，信息的准确性尤为重要。

传统解决方案如检索增强生成（RAG）通过在生成前先检索相关信息来缓解这一问题，已经取得了显著进展。但这种方法仍存在一些局限：它通常只进行一轮检索，难以处理需要多步推理的复杂问题；检索到的信息可能不够相关或全面；更重要的是，模型可能未能充分"理解"如何有效利用这些信息。

正是在这样的背景下，Search-R1的研究具有重要意义。尽管本文指出了论文实验结果中的不一致之处，但不可否认，研究者提出的方法本身具有创新性和启发性。他们尝试让AI模型像人类一样，在思考过程中意识到自己知识的局限，并主动寻求外部信息。这种思路不仅需要模型具备推理能力，还需要它学会何时以及如何与搜索引擎交互，代表了解决AI幻觉问题的一个有价值的新方向。

虽然具体实验结果有待商榷，但Search-R1探索的多轮交互式搜索与推理框架，为我们提供了思考AI系统如何更自然地获取和利用信息的新视角。这种方法潜在地可以帮助模型在面对未知问题时，表现得更加谨慎、求证和准确，我也复现了本文的结果。

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

Search-R1：让AI学会"不知道就去查"

Search-R1是对DeepSeek-R1模型的扩展，它通过强化学习（RL）训练大型语言模型，使其能够在推理过程中自主生成搜索查询并利用搜索结果。这听起来似乎很简单，但实现起来却面临三大挑战：

首先，如何将搜索引擎整合到强化学习框架中？传统的强化学习假设环境是相对静态的，而搜索引擎是一个动态且不可预测的外部系统。更复杂的是，如何确保模型能够稳定地学习，特别是当它需要处理从搜索引擎返回的大量文本时？

其次，如何实现多轮交错的推理和搜索？理想情况下，模型应该能够根据问题的复杂性动态调整其检索策略，就像人类在解决问题时会根据需要多次查询信息一样。

最后，如何设计有效的奖励函数？在搜索和推理交织的场景中，传统的奖励设计可能无法很好地泛化。

Search-R1通过一系列创新解决了这些挑战。它将搜索引擎建模为环境的一部分，使LLM能够在生成过程中与搜索引擎交互。模型通过特定标记（如<search>和</search>）触发搜索，搜索结果则通过<information>和</information>标记返回。模型的推理步骤通过<think>和</think>标记包装，最终答案通过<answer>和</answer>标记格式化。

更重要的是，Search-R1引入了"检索标记掩码"技术，确保模型在学习过程中不会试图"优化"搜索引擎返回的内容，而是专注于学习如何生成有效的搜索查询和利用搜索结果。这种设计使得模型能够稳定地学习，避免了在处理外部信息时常见的训练不稳定问题。

强化学习：AI自主学习的关键

Search-R1的核心创新在于它完全通过强化学习来训练模型与搜索引擎交互，而不依赖于大量的人工标注数据。这一点至关重要，因为收集高质量的搜索-推理交互轨迹是极其昂贵且难以扩展的。

在Search-R1中，研究者采用了两种强化学习算法：近端策略优化（PPO）和梯度正则化近端优化（GRPO）。这两种算法各有优势：GRPO收敛速度更快，而PPO在不同模型架构上表现更稳定。

强化学习的工作原理是通过"试错"来学习。模型生成一个响应（包括搜索查询和最终答案），然后根据最终结果获得奖励。如果答案正确，模型获得正向奖励；如果错误，则获得负向奖励。通过大量这样的尝试，模型逐渐学会了何时进行搜索、搜索什么内容以及如何利用搜索结果。

值得注意的是，Search-R1采用了简单的基于结果的奖励函数，避免了复杂的基于过程的奖励设计。这种简化不仅使训练更加高效，还证明了即使只有最终结果的反馈，模型也能学会复杂的搜索和推理策略。

训练方法：PPO与GRPO的对比

Search-R1采用了两种强化学习算法进行训练：近端策略优化（PPO）和梯度正则化近端优化（GRPO）。下图展示了这两种方法的工作原理：

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

PPO与GRPO训练方法对比图1：PPO和GRPO训练方法与搜索引擎的交互示意图。

从图中可以看出，两种方法的主要区别在于如何处理多个输出和奖励。在上半部分，PPO方法中，模型生成一个输出序列，然后通过价值模型（Value LLM）和奖励模型（Reward Model）计算单一的优势值和奖励。而在下半部分，GRPO方法则生成多个输出序列（o₁, o₂, ..., oₖ），分别计算奖励（r₁, r₂, ..., rₖ），然后通过组计算（Group Computation）整合成最终的优势估计。

这两种算法的性能对比如下图所示：

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

PPO与GRPO性能对比 不同模型上PPO和GRPO的训练收敛曲线。

从图中可以看出，GRPO（橙色线）通常比PPO（蓝色线）收敛更快，特别是在训练初期。这意味着使用GRPO可以在更短的时间内达到更好的性能，这对于计算资源有限的场景特别有价值。

训练动态：模型如何学会搜索

Search-R1的训练过程展示了模型如何逐步学会与搜索引擎交互。研究者对LLaMA3.2-3b-base模型在Natural Questions数据集上的训练进行了详细分析，发现了三个明显的阶段：

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

早期阶段（前100步）：响应长度急剧下降，训练奖励略有增加。在这个阶段，基础模型学会了消除过多的填充词，开始适应任务要求。

中期阶段（100-130步）：响应长度和训练奖励都显著增加。此时，模型学会了调用搜索引擎，导致响应变长（因为包含了检索到的内容）。训练奖励大幅提升，表明模型开始有效利用搜索结果。

后期阶段（130步之后）：响应长度稳定，训练奖励继续小幅增加。此时，模型已经学会了有效使用搜索引擎，并专注于优化其搜索查询。

这一过程揭示了强化学习如何从零开始教会模型一种全新的能力——与搜索引擎交互。这种能力不是预先编程的，而是模型通过不断尝试和获取反馈自主学习的结果。

多轮搜索与推理：AI认知能力的飞跃

Search-R1最令人印象深刻的能力是它支持多轮搜索和推理。这不是简单的"问一次，搜一次"，而是一个动态、交互式的过程，模型可以根据已获得的信息决定是否需要进一步搜索以及搜索什么内容。

尊重原文，当被问到"Curious是哪位歌手创建的香水，这位歌手出生在哪个城市和州？"时，普通的DeepSeek-R1模型会错误地认为这是Beyoncé的香水，并给出错误答案"Houston"。而Search-R1则展示了令人印象深刻的多轮搜索和推理能力：

首先，它思考需要查找哪些信息，并搜索"Curious fragrance information"
从搜索结果中，它了解到Curious是Britney Spears的香水
然后，它进一步搜索"Britney Spears birthplace"
发现Britney Spears出生在McComb, Mississippi
为了确认，它再次搜索"McComb, Mississippi location"
最终给出正确答案：McComb, Mississippi

这个过程展示了Search-R1如何像人类一样，通过多轮搜索逐步缩小信息范围，最终找到准确答案。这种能力对于解决复杂问题至关重要，特别是那些需要多步推理和不同类型信息整合的问题。

实验结果：性能提升的铁证

Search-R1的效果如何？研究者在七个问答数据集上进行了广泛实验，包括Natural Questions（NQ）、TriviaQA、PopQA、HotpotQA、2WikiMultihopQA、Musique和Bamboogle。这些数据集涵盖了从简单事实查询到复杂多跳推理的各种问题类型。

实验结果：与最先进的基线相比，Search-R1在Qwen2.5-7B模型上实现了惊人的26%性能提升，在Qwen2.5-3B上实现了21%的提升，在LLaMA3.2-3B上实现了10%的提升。这些数字背后是用户体验的质的飞跃——更准确的回答，更少的幻觉，更强的推理能力。

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

实验结果表格Search-R1在七个数据集上的表现。粗体表示最佳性能，下划线表示第二佳性能。

从上表可以清晰地看到，Search-R1在所有测试数据集上都显著优于其他方法。特别是在TriviaQA和PopQA这样的事实性问答数据集上，性能提升尤为显著。这26%的性能提升不仅仅是数字上的变化，它代表了AI系统在实际应用中的质变——从"经常出错"到"基本可靠"的转变。

进一步的实验结果显示，不同训练方法的对比也非常有启发性：

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

PPO与GRPO方法对比PPO和GRPO方法在不同模型上的性能对比。

从上表可以看出，GRPO方法在大多数情况下优于PPO方法，特别是在Qwen2.5-3B-Instruct模型上，GRPO达到了0.365的平均性能，而PPO为0.327。这进一步证明了GRPO在搜索增强任务上的优势。

更令人惊讶的是，Search-R1在不同类型的基础模型上都表现出色，包括Qwen2.5和LLaMA3.2系列。这与之前在数学推理领域的强化学习研究形成鲜明对比，后者往往只对特定模型有效。这表明搜索增强的强化学习具有更广泛的适用性。

研究者还发现，指令微调模型（Instruct）在训练初期表现更好，收敛更快，但经过充分训练后，基础模型（Base）也能达到相似的性能水平。这一发现对于资源有限的团队特别有价值，因为它表明即使是较小的基础模型，通过适当的强化学习训练，也能在搜索增强任务上取得出色表现。

应用场景：Search-R1的现实价值

Search-R1的技术突破不仅仅是学术成就，它在实际应用中具有广泛的价值。以下是几个特别有前景的应用场景：

智能问答系统：Search-R1可以构建能够处理复杂问题的问答系统，特别是那些需要最新信息或多步推理的问题。与传统系统不同，它能够自主决定何时搜索、搜索什么以及如何利用搜索结果，提供更准确、更全面的回答。

学术研究助手：研究人员经常需要查找和整合来自不同来源的信息。Search-R1可以帮助他们快速获取相关文献、实验数据和研究成果，大大提高研究效率。

医疗咨询支持：医疗专业人员需要及时了解最新的研究发现和治疗方法。Search-R1可以帮助他们快速获取相关信息，提高诊断和治疗决策的准确性。

企业知识管理：企业内部通常有大量分散的知识和文档。Search-R1可以帮助员工快速找到所需信息，无论是产品规格、客户数据还是内部政策。

这些应用场景的共同点是它们都需要AI系统能够获取最新、准确的信息，并通过多步推理解决复杂问题——正是Search-R1的核心优势所在。

技术实现概述：Search-R1的核心框架

虽然Search-R1的完整实现涉及复杂的技术细节，但了解其基本框架对于把握这项技术的本质非常有帮助。以下是Search-R1实现的核心要素：

https://github.com/PeterGriffinJin/Search-R1

1. 模型架构：Search-R1基于现有的大型语言模型，如Qwen2.5系列和LLaMA3.2系列。这些基础模型提供了强大的语言理解和生成能力，Search-R1则通过强化学习为它们添加了搜索能力。

2. 搜索引擎接口：Search-R1设计了一个标准化的接口，允许模型与搜索引擎交互。这个接口使用特定标记（如<search>和</search>）来触发搜索，并通过<information>和</information>标记接收搜索结果。

3. 检索系统实现：在研究实验中，研究者主要使用了基于FAISS（Facebook AI Similarity Search）的本地检索器作为搜索引擎。这种基于向量数据库的检索系统能够高效地存储和检索大量文本数据，并且使得实验更加可控和可重复。研究者选择本地检索器而非商业搜索API的主要原因是为了确保实验的一致性和可复现性。不过，Search-R1的框架设计允许它与各种类型的检索系统集成，包括商业搜索API和其他向量数据库。

4. 训练框架：Search-R1采用了基于PyTorch的训练框架，支持PPO和GRPO两种强化学习算法。训练过程中，模型通过与搜索引擎的交互学习如何生成有效的搜索查询和利用搜索结果。

5. 奖励机制：Search-R1使用简单的基于结果的奖励函数。如果模型生成的最终答案正确，它会获得正向奖励；如果错误，则获得负向奖励。这种简单的奖励设计证明了足以让模型学会复杂的搜索和推理策略。

6. 推理流程：在推理阶段，Search-R1首先分析输入问题，然后决定是否需要搜索。如果需要，它会生成一个搜索查询，获取搜索结果，然后基于这些结果进行推理。这个过程可以重复多次，直到模型认为它有足够的信息来回答问题。

这种设计使得Search-R1具有高度的灵活性和可扩展性。开发者可以根据自己的需求选择不同的基础模型、搜索引擎和训练算法，以适应不同的应用场景和资源限制。在实际应用中，可以将Search-R1与各种商业搜索引擎（如Google、Bing）或企业内部的知识库系统集成，进一步提升其在特定领域的表现。

启发：AI认知能力的新篇章

虽然Search-R1的主实验结果存在一些问题，但它的研究方法代表了AI认知能力的一个重要突破。通过强化学习，它使大型语言模型学会了一项关键的人类认知能力——意识到自己知识的局限，并主动寻求外部信息。这种能力对于构建真正可靠、可信的AI系统至关重要。

作为一名正在开发AI产品的工程师，你可能已经意识到AI幻觉问题对用户信任的巨大威胁。Search-R1为解决这一问题提供了一条有前景的路径。通过将这项技术整合到你的产品中，你可以显著提高AI回答的准确性和可靠性，为用户提供更好的体验。但你需要注意的是：长链条推理中的错误累积以及模糊的歧义查询可能都会导致Search-R1输出远低于R1正确率的答案。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

啪啪打脸！Search-R1让DeepSeek-R1实时获取信息，实现26%提升的争议与启发 | 最新

关键词: AI , Search-R1 , DeepSeek-R1 , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0