自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来,全球掀起了一场 AI 能力 “复现” 竞赛。近日,上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破,通过简单的知识蒸馏方法,团队成功使基础模型在数学推理能力上超越 o1-preview。
团队在本工作中特意聚焦于业内广泛使用却往往未被公开披露的蒸馏技术,想在 “揭秘” 蒸馏技术背后所能达到的收益的同时,又对 AI 研究界进行一次倡议,呼吁优先考虑透明创新的方法,而不是一味追求短期性能提升和 AI 技术研发 "捷径"。研究团队坚信,培养能够从第一性原理思考而不是简单套用现有解决方案的下一代 AI 研究者至关重要。
团队选择 Qwen2.5-Math-72B 作为基础模型,经过精心设计的数据筛选和处理流程,仅使用数万个从 o1 蒸馏的长思考链样本进行训练。在美国高中数学邀请赛 (AIME) 等权威测试中,模型表现优于 o1-preview。研究表明,通过标准的监督微调方法,模型不仅掌握了复杂的数学推理能力,还展现出强大的泛化性。令人惊喜的是,这个主要针对数学推理训练的模型在其他领域也表现出色:
"这个突破背后隐藏着重要警示。" 项目负责人表示,知识蒸馏虽然提供了快速提升模型性能的捷径,但也带来了三个层面的隐忧:
1. 技术层面:模型性能受限于教师模型,难以实现真正的突破创新
2. 研究方向:过度依赖蒸馏可能导致核心技术研发投入不足
3. 人才培养:简单的模型复制和优化可能削弱研究人员的基础创新能力
为推动行业良性发展,团队创新性地提出了技术透明度指数 (TTI) 框架。该框架从数据、方法、评估和开源资源四个维度,对 AI 模型复制工作进行全面评估。研究发现,目前业界多个 o1 复现项目的透明度普遍不足,最高分仅为 33 分。研究团队建议,AI 领域应当:
"构建智能 AI 系统固然重要,但培养具有第一性原理思维的人才才是我们的终极使命。" 这句话道出了 AI 发展的深层智慧 —— 技术进步离不开深入的思考和创新。这项研究不仅展示了 AI 技术的最新进展,更为整个行业的发展方向提供了重要启示。在追求技术突破的同时,如何保持创新活力、培养高质量人才,将是决定 AI 未来的关键因素。
具体而言,这份报告分为几个重要的板块:
(1)详细解析了蒸馏 OpenAI o1 系列模型的技术路线,并对其有效性进行了全面的评估。研究团队发现,在一个不错的基础数学模型上仅仅通过几万条 o1-mini 的蒸馏样本进行微调,就可以在美国高难度的数学竞赛 AIME 上超越 o1-preview 的水平,并且整个过程所需要的技术复杂度极低。
(2)除了数学推理这个场景外,我们还探索了 o1 蒸馏模型在其他不同视角(如幻觉、安全性)下的表现,这些跨域实验不仅揭示了知识蒸馏技术的优势,也展现了其固有局限性,并发现了一些意想不到的跨域表现模式。
(3)建立了一个全面的基准框架,在多个不同的角度(如数据透明性、方法技术透明性、评估透明性以及资源的开源程度)评估和分类 o1 的各种复现尝试工作的技术透明度与开放性,并为此设立了一套排行版机制。
(4)最后,此研究报告还进行了非常深刻的讨论,最终得出尽管追求更强大的 AI 很重要,但培养具有第一性原理思维的研究人员往往更加重要。这一教育使命不仅仅是一个技术层面的考虑,更是一项将塑造 AI 创新未来的根本性人文使命。
o1-Journey (Part1) 中探索的技术路线。
研究团队早在一个多月前的 o1-Journey (Part1) 中已经提出了一种结合树搜索构建长思维链数据的方式,并取得了一定的初步效果。在整个技术路线中,最为关键的一个环节是如何构建长思维链数据,这种长思维数据需要体现 “深度” 的思考,包含反思、纠错和回溯步骤。虽然树搜索是最有效的方法之一,但它可能会耗费大量计算资源和时间。除了树搜索之外,合成长推理链的其他替代方法如下图所示。这些方法在计算效率和推理完整性之间提供了不同的权衡。
各种合成长思维数据的方法(按照代价从小到大)。
人类解决问题很少遵循一条通向成功或失败的线性路径。相反,人们在遇到障碍时会经常停下来反思、回溯并修改他们的方法。这个自然过程反映了长思维的特征。通过详细记录人类如何解决问题,我们可以生成真实的长思维训练数据。但是这种方式需要依赖大量极高质量的人工标注,并且随着问题难度的升级,标注的难度也会大幅上升。
与策略模型不直接对反馈作出反应的历程学习 (Journey Learning) 不同,我们可以让多个智能体参与探索过程,指导它们扮演不同的角色。例如,我们可以构建一个多智能体辩论系统,其中策略模型生成持续的推理,而评判模型则评估是继续还是回溯。当找到解决方案时,这种交互过程自然会产生长思维训练数据。
像 o1 系列这样强大的模型展示出强大的反思和自我纠正能力。使用更强大的模型来指导较弱模型的常见做法,是一种简单,不需要设计复杂技术路线的方法。然而,由于 o1 限制了对其内部思维过程的访问,因此需要谨慎的提示词设计。
团队选用了 Qwen-2.5-Math-72B 作为基座模型,在实际进行蒸馏之前,研究团队首先在这个模型上面进行了 “格式化对齐”(Reformatted Alignment)。团队从开源数据集 NuminaMath-CoT 上选取了一部分奥林匹克级别的问题作为起点,并应用了一个过滤流程来优化数据集:设计规则移除了依赖图像的问题、缺乏明确标注答案的问题以及所有证明题,仅保留答案类型为数值的问题。为了进一步增强数据集,利用 GPT-4o-mini 重写原始解答。重写过程遵循特定的标准,确保解答的步骤是细粒度的、高度详细的,并且篇幅更长。这一步骤还规范化了输出格式,要求使用 \boxed {} 明确表示最终答案,以符合长思维格式。
与使用 Pass@k、Maj@k 或 RM@k 等传统评估指标不同,我们引入了一个新指标,旨在评估模型在不同计算代价场景下的表现。这种新方法反映了 “推理时扩展”(inference-time scaling) 的真实情况,在衡量大模型的有效性和效率方面发挥着关键作用。在 “推理时扩展” 时代,像 OpenAI 的 o1 系列这样的模型已经证明,性能不仅取决于训练时的计算量,还显著受到推理过程中 "思考" 时间的影响。这种转变需要一个更细致的评估指标,以考虑计算成本和性能之间的权衡。团队提出的指标通过测量模型在特定的 benchmark 上,在一定的平均输出 Token 下,获得的准确率,反映这种 “推理时扩展” 的模式。此外,这个指标本质上是可扩展的。在评估选取的平均 Token 比单次模型输出 Token 数更高的场景中,采用 Maj@k 指标来近似模型的性能。注意,整个过程无需使用任何额外的奖励模型。通过采用这种方法,我们确保了一个可扩展且公平的评估框架,能够捕捉模型在不同推理时间计算设置下的表现。这种方法避免了人为约束,并允许进行有意义的比较,而无需依赖外部奖励信号,仅专注于模型的内在推理能力。
使用蒸馏数据 SFT 后的模型在 AIME2024 和 MATH500 两个 benchmark 上与 o1 系列模型在一定“推理代价”的表现比较。
结果表现,在相似的 “推理计算代价”(即在对应 benchmark 的平均输出 token 类似的情形下),采用蒸馏技术得到的模型具有出色的表现,在 AIME2024 上超过了 o1-preview 的表现。
除了在推理场景下,对蒸馏技术得到的模型进行性能的探究之外,团队还涉足许多其他角度的问题,例如安全、幻觉,以及在更加通用场景任务上的表现。为了研究模型在不同领域的泛化能力,我们首先构建了一个多样化的双语数据集。从我们的蒸馏 o1 模型输出中,我们精心选择了大约 5,000 个包含回溯思维和自我反思的高质量样本。这些样本随后使用 GPT-4o mini 模型翻译成中文,形成了一个数量均衡的双语数据集。最终的训练数据集包含 10,750 对中英混合样本对。然后,我们使用这个精选数据集对 Qwen2.5-72B-Instruct 模型进行监督微调(SFT),从而获得我们的最终模型。
基于 Qwen2.5-72B-Instruct,经过 o1-mini distill 的数据 SFT 前后,模型在安全性、幻觉(事实准确性)、以及一些通用场景任务下的表现性能对比。
为了全面评估模型安全性方面的泛化能力,团队构建了一个由 600 个问题组成的多样化测试集,这些问题是从三个已建立的安全评估数据集中精心选择的:Flames、DiaSafety 和 WildSafety。具体来说,我们从每个数据集中提取 200 个问题,以确保在不同安全场景中的平衡代表性。我们使用 Safety-J 来评估原始模型和微调模型的响应。评估结果揭示了模型在安全性影响上的有趣现象:虽然在 Flames 上的表现略有提升(从 91% 提高到 92.5%),在 DiaSafety 上保持稳定(100%),但在 WildSafety 上出现了明显的下降(从 92% 降至 86.5%)。这种安全性指标的轻微下降凸显了一个关键发现:即使使用以回顾和反思为重点的高质量 o1 类训练数据,如果训练数据缺乏明确的安全性对齐,模型的安全性表现也可能出现退化。
团队还评估了模型在利用 o1 蒸馏的数据 SFT 前后的事实准确性。团队使用了来自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的数据集。这些数据集包含中文和英文的基于知识的问题,用于验证模型的事实准确性。ChineseFactEval 数据集包含两个子集:通用问答和奉承性问答。奉承性问答子集在提示中包含误导性答案,以测试模型的奉承倾向,而通用问答子集则采用类似 SimpleQA 的格式。这些数据集中的所有问题都需要可验证的简短答案。我们使用 GPT-4o 评估模型响应与标准答案的匹配程度,以获得更稳健的答案匹配结果。
结果表明,经过 o1 蒸馏得到的数据 SFT 后的模型在事实准确性方面没有显示出显著改进。这主要是因为更长的推理链导致了额外的幻觉 —— 尤其是模型试图假装使用搜索引擎并虚构搜索结果的现象。然而,这些尝试使用搜索引擎的行为暗示了一个有前途的方向,我们认为为模型提供实际的网络访问能力将显著提高其事实准确性。此外,SFT 后模型增强的推理链提供了详细的分析和自我反思能力,这可能有助于防止幻觉的产生。我们还发现,经过 SFT 后,模型对奉承的易感性略有降低。这种改进可以归因于自我反思过程,在这个过程中,模型能够辨别并深入思考提示中呈现的不合理假设,而不是不加质疑地接受它们。
例1:反思和深度思考缓解回答的幻觉
例2:反思和深度思考缓解回答的幻觉
例3:反思和深度思考缓解回答的幻觉
例4:反思和深度思考检测错误的假设
例5:反思和深度思考缓解回答的幻觉
为了评估我们模型在通用场景中的表现,我们从 Auto-J 和 LIMA 数据集中各抽取 50 个查询,组成了一个包含 100 个查询的测试集,并通过人工调整,特别聚焦于长期规划任务,并请三位领域专家对模型的输出质量进行 0-100 分的评估。评估结果显示在经过 o1 蒸馏数据微调后,模型的表现有显著改进。在 Auto-J 查询上的得分从 81.6% 提升至 88%,在 LIMA 查询上从 77.2% 提升至 87.2%。这种性能提升表明,我们的微调方法不仅改善了双语对话能力,还增强了模型处理一般任务的能力,特别是在需要长期规划和结构化思维的场景中。
为了系统地评估和比较各种尝试 o1 复现的工作,我们提出了基于透明度的评价体系,这是一个全面的框架,用于量化各个工作实现的透明度和可复现性。该框架旨在为研究界提供客观指标,主要从透明度角度评估 o1 复现工作,这包括几个相互关联的方面:数据透明度,涵盖下游进行搜索或后训练所用数据集的透明性;方法透明度,体现在所描述技术、流程和实验设置是否清晰;以及评估透明度,考虑性能评估的可复现性和全面性。此外,该框架还评价了资源的开源程度,如代码、数据集和模型是否开源,以确保研究界能验证和有效利用这些工作。这种全面的视角捕捉了复现工作中透明度的多面性。
这一方面评估数据来源是否明确在技术报告中指明,包括所使用数据集及其各自来源的详细描述。这个数据涉及下游任务(如监督微调 (SFT)、强化学习 (RL) 或搜索算法)中使用的所有数据集。数据的透明度,对后期后训练、搜索算法、强化学习,以及最重要的长思维数据构建阶段起到了非常重要的奠基作用。
方法透明度确保对工作中采用的方法、技术和流程有足够详细的描述,以方便其他研究者的复现和验证。本部分的评估由多个部分组成,从基础模型的选取、介绍到训练、搜索、强化学习和数据合成方法。此外,除了详细说明方法如何实施外,验证方法本身的有效性更为重要。全面的评估应量化各个技术对整体系统性能的贡献(例如设计消融实验、对比实验),而不是简单地报告最终结果。
评估透明度包括方法选用的 benchmark 测试集是否是领域公认的,并且全面公开的;此外,采用的评估指标是否权威,如果牵涉到自己定义的评估指标是否有详细介绍其定义以及发明的动机。同时,在汇报的 baseline 中,很重要的一点是评估指标的对齐,即对不同的模型 / 方法是否是在公平、一致的实验环境下进行评测的。
开源资源在促进可重复性和使研究社区能够建立在现有工作之上发挥着重要作用。这一部分评估数据集、模型、代码和文档的可用性和可访问性,这些对于独立验证和进一步实验至关重要。
针对以上提到的科研工作透明性的评价角度,研究团队精心设计了一套评分机制,这套机制里涵盖了 25 个是 / 否问题,并结合每个问题的重要性赋予不同的分值,最后得到了一套总分为 100 分的评价体系。
对 o1 各种复现工作的评价体系,包含了 25 个 Yes/No 问题,总分为 100 分。
利用上述的评价体系,团队对市面上现存的 o1 复现工作进行了全面的评估。涉及的工作包括:Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2,即本工作),评估的结果如下表所示:
各种 o1 复现工作的透明度得分 (截至 2024.11.22 日的统计)。
从评估结果可以看出,无论是工作在各个维度的透明开放程度,还是在资源的开源方面,团队系列的 o1-Journey 工作都占据了非常大的优势,即有非常大的透明性、开放性层面,从而利于研究社区的进一步利用和探索。
从 o1 进行知识蒸馏的显著成功,为在数学推理任务中获得令人印象深刻的性能提升提供了一条 “诱人” 的捷径。虽然这种方法提供了即时且切实的效益,但它掩盖了一系列深层挑战,这些挑战威胁着 AI 技术及其研究社区的长期发展。在本节中,团队将探讨优先选择容易获胜而非基础创新付出的真实代价,揭示出远超纯技术层面的影响。
首先,各个研究组织应保持良性、平衡的研究,既包括基于蒸馏的方法,也包括对搜索与推理优化的基础研究。其次,尽管蒸馏解决方案的短期效果显著,对高级计算基础设施的持续投入依然不可或缺。最后,研究计划应优先培养搜索算法和推理优化的核心能力,同时兼顾性能提升。
在教育层面,我们需要重新设计培养未来研究者的方法。这包括开发兼顾实践应用与基础理论的平衡课程、构建既促进深刻理解又兼顾性能优化的研究项目,并营造一种重视长期创新而非快速收益的研究文化。
深刻的教训在于,蒸馏本身并非问题,它是我们技术工具箱中的重要组成部分。真正的风险在于,它的便利性可能让我们偏离基础创新这一更困难但回报更高的道路。在未来的发展中,保持即时收益与长期发展的平衡,将是确保 AI 能力持续提升以及培养领域未来创新者的关键。
构建智能 AI 固然重要,但培养具备第一性原理思维的人才才是我们的终极使命 —— 毕竟,他们才是 AI 未来的真正设计者。
文章来自于“机器之心”,作者“上海交通大学GAIR研究组”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0