OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

6700点击 2024-12-21 17:04

注：这篇文章来自ARC Prize

OpenAI 最新的 o3 系统在 ARC-AGI-1 公共训练集上训练后，在公共排行榜规定的 10,000 美元算力限制内，于半私有评估集上实现了 75.7% 的突破性成绩。而在高算力配置（172 倍）下，o3 更是达到了 87.5% 的成绩。

o 系列的表现

这标志着 AI 能力的一次重大飞跃，展现了 GPT 系列模型前所未有的任务适应能力。回顾过去，ARC-AGI-1 测试从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5% 用了整整 4 年时间。o3 的出现将彻底改变我们对 AI 能力的认知。

ARC Prize 的目标不仅仅是设立一个基准：它的使命是为通用人工智能指明方向。我们很期待能在明年与 OpenAI 团队及其他机构合作，继续设计新一代的持久性 AGI 基准测试。

ARC-AGI-2 将保持相同格式——对人类来说容易验证，但对 AI 来说更具挑战性——将与 2025 年的 ARC Prize 同步推出。

让我们详细了解测试报告的内容。

OpenAI o3 在 ARC-AGI 测试中的表现

我们通过两组 ARC-AGI 数据集对 o3 进行了测试：

- 半私有评估：包含 100 个私有任务，用于评估是否存在过拟合

- 公共评估：包含 400 个公共任务

在 OpenAI 的指导下，我们采用了两种计算资源配置进行测试，分别使用不同的样本量：6（高效模式）和 1024（低效模式，使用 172 倍的计算资源）。

测试结果如下：

OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

半私有评估（100个任务）：

- 高效模式：准确率 75.7%，成本 2,012 美元，每任务处理 3300 万个标记，单任务成本 20 美元，用时 1.3 分钟，样本大小6.

- 低效模式：准确率 87.5%，处理 57 亿个标记，每任务用时 13.8 分钟（具体成本未知），样板大小：1024.

公共评估（400个任务）：

- 高效模式：准确率 82.8%，成本 6,677 美元，每任务处理 1.11 亿个标记，单任务成本 17 美元

- 低效模式：准确率 91.5%，处理 95 亿个标记（具体成本和用时未知）

注：由于 o3 的定价和具体功能仍在确定中，高算力模式的成本暂时无法获知。我们只知道它使用了约 172 倍于低算力模式的计算资源。

关于模型调优：OpenAI 透露他们使用了公共训练集的 75% 来训练我们测试的 o3 版本，但未提供更多细节。我们还没有测试未经 ARC 训练的原始模型，因此无法确定多少性能提升来自 ARC-AGI 数据的训练。

考虑到推理预算的可变性，效率（如计算成本）现已成为性能报告中的必要指标。我们记录了总成本和单任务成本作为初步的效率指标。虽然业界还需要确定最合适的效率衡量标准，但从趋势来看，成本是一个不错的起点。

在 ARC-AGI-Pub 规定的 10,000 美元预算限制内，o3 达到的 75.7% 的高效成绩足以问鼎公共排行榜榜首！

虽然 87.5% 的低效模式成本较高，但它证明了增加计算资源确实能提升模型在新任务上的表现（至少在目前测试的范围内）。

虽然每个任务的成本不菲，但这样的成绩并非仅仅依靠暴力计算得来。OpenAI 的 o3 模型代表了 AI 适应新任务能力的重大突破。这不是简单的性能提升，而是 AI 能力的质的飞跃，远超传统大语言模型的局限。o3 展现了适应全新任务的能力，在 ARC-AGI 领域的表现甚至接近人类水平。

然而，这种通用性的代价不菲，目前还称不上经济实惠：雇人解决 ARC-AGI 任务只需约 5 美元（我们确实这样测试过），能耗仅需几美分。相比之下，o3 即使在低算力模式下每个任务也要花费 17-20 美元。不过，成本效益有望在未来数月乃至数年内显著改善，这些能力很可能在较短时间内就能与人类劳动竞争。

o3 超越 GPT 系列的表现证明了架构的重要性。仅仅增加 GPT-4 的计算量是无法达到这样的效果的。简单地延续 2019-2023 年的思路——用相同架构训练更大模型、投入更多数据——已经不够了。未来的进展需要新的突破。

那么，o3 算是真正的通用人工智能（AGI）吗？

ARC-AGI 作为一个关键基准，能够以其他测试无法企及的方式检测这类突破性进展，特别是在泛化能力方面。然而，需要明确的是，正如我们今年反复强调的，ARC-AGI 并非 AGI 的决定性测试。它更像是一个研究工具，旨在引导研究人员关注 AI 领域最具挑战性的未解决问题，在过去五年中它很好地完成了这个使命。

通过 ARC-AGI 测试并不意味着实现了 AGI，事实上，我认为 o3 还称不上是真正的 AGI。它在一些非常基础的任务上仍然会失败，这表明它与人类智能还存在本质差异。

更值得注意的是，早期数据显示，即将推出的 ARC-AGI-2 基准测试对 o3 来说仍是一个巨大挑战。即使在高算力模式下，o3 的得分可能还不到 30%，而普通人无需特殊训练就能获得超过 95% 的成绩。这说明我们仍然能够设计出具有挑战性的新基准，而不必依赖专业领域知识。真正的 AGI 到来时，你会发现"设计一个对普通人简单但对 AI 困难的任务"这件事本身变得不可能。

o3 与之前的模型有何不同？

为什么 o3 能远超 o1 的表现？为什么 o1 又能大幅领先 GPT-4o？我认为这一系列结果为我们探索通用人工智能提供了宝贵的参考。

我对大语言模型的理解是：它们本质上是向量程序的数据库。当收到提示时，它们会调取与提示相匹配的程序，并在当前输入上"执行"。大语言模型通过被动吸收人类创造的内容，存储和运行数以百万计的实用小程序。

这种"记忆-检索-应用"的模式在有足够训练数据的情况下，可以在任何任务上达到任意水平的熟练度，但它无法适应新情况或快速掌握新技能（换句话说，它缺乏流动智力）。这一点从大语言模型在 ARC-AGI 测试上的表现就可见一斑。ARC-AGI 是唯一专门用来测试新颖性适应能力的基准，而 GPT-3 得分为 0，GPT-4 接近 0，GPT-4o 也仅达到 5%。即使将这些模型扩展到极限，其 ARC-AGI 分数也无法接近多年前简单暴力枚举方法能达到的水平（50%）。

适应新环境需要两个要素。首先是知识储备——一系列可重复使用的函数或程序。大语言模型在这方面已经做得很好。其次是重组能力——面对新任务时，能够将这些函数重新组合成一个新程序，为当前任务建立模型。这就是程序合成能力。大语言模型一直缺乏这项能力，而 o 系列模型终于解决了这个问题。

目前我们只能推测 o3 的具体运作方式。但其核心机制似乎是在标记空间中进行自然语言程序的搜索和执行——在测试阶段，模型会搜索可能的思维链 (CoTs)，描述解决任务的步骤，这个过程可能类似于 AlphaZero 的蒙特卡洛树搜索。在 o3 中，这种搜索可能由某种评估模型引导。值得一提的是，Demis Hassabis 在 2023 年 6 月的采访中曾暗示 DeepMind 一直在研究这个方向——这项技术的发展由来已久。

因此，与传统大语言模型在处理新问题时的困境相比，o3 通过生成和执行自己的程序克服了这一限制，其中程序本身（思维链）成为知识重组的具体体现。虽然这不是测试时知识重组的唯一方法（还可以采用测试时训练或潜在空间搜索），但从最新的 ARC-AGI 测试结果来看，这代表了当前的最高水平。

事实上，o3 代表了一种由深度学习引导的程序搜索方式。在测试过程中，模型会在"程序"空间中搜索（这里的程序指的是自然语言程序——描述解决当前任务步骤的思维链），并由深度学习模型（基础大语言模型）引导。这就解释了为什么解决一个 ARC-AGI 任务可能需要处理数千万个标记并花费数千美元：搜索过程需要在程序空间中探索大量路径，包括需要回溯的情况。

不过，当前的实现与我此前提出的"通往 AGI 的最佳路径是深度学习引导的程序搜索"这一观点有两个明显的区别。关键在于，o3 生成的是需要由大语言模型"执行"的自然语言指令，而不是可直接执行的符号程序。这带来两个重要影响。

首先，这些程序无法通过直接执行和评估与现实世界建立联系——它们必须依赖另一个模型来评估适用性，而这种评估在遇到分布外的情况时可能会出错，因为缺乏实际基础。其次，系统无法像 AlphaZero 那样自主学习生成和评估程序的能力，而是需要依赖专家标注的人工思维链数据。

目前我们还不清楚这个新系统的具体局限性和潜在发展空间。需要进一步测试才能得出结论。但无论如何，目前的成果已经是一个重大突破，并证实了在直觉引导下进行程序空间实时搜索是构建通用 AI 系统的有效方法。

总结

o3 的出现标志着一个重要的里程碑。它在 ARC-AGI 测试中展现出的适应性和泛化能力突破，以其他任何基准测试都无法企及的方式证明了这一点。

o3 通过一种由大语言模型引导的自然语言程序搜索方法，解决了 LLM 范式的根本局限——无法在测试时重组知识。这不是简单的进步，而是开创了一个全新的领域，值得学术界认真研究。

原文：https://arcprize.org/blog/oai-o3-pub-breakthrough

文章来自于微信公众号“AI范儿”，作者“AI范儿”

OpenAI 新 AI 逼近人类智力！一文读懂最新突破与技术原理

关键词: openai , o3 , 人工智能 , chatGPT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/