注:这篇文章来自ARC Prize
OpenAI 最新的 o3 系统在 ARC-AGI-1 公共训练集上训练后,在公共排行榜规定的 10,000 美元算力限制内,于半私有评估集上实现了 75.7% 的突破性成绩。而在高算力配置(172 倍)下,o3 更是达到了 87.5% 的成绩。
这标志着 AI 能力的一次重大飞跃,展现了 GPT 系列模型前所未有的任务适应能力。回顾过去,ARC-AGI-1 测试从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5% 用了整整 4 年时间。o3 的出现将彻底改变我们对 AI 能力的认知。
ARC Prize 的目标不仅仅是设立一个基准:它的使命是为通用人工智能指明方向。我们很期待能在明年与 OpenAI 团队及其他机构合作,继续设计新一代的持久性 AGI 基准测试。
ARC-AGI-2 将保持相同格式——对人类来说容易验证,但对 AI 来说更具挑战性——将与 2025 年的 ARC Prize 同步推出。
让我们详细了解测试报告的内容。
我们通过两组 ARC-AGI 数据集对 o3 进行了测试:
- 半私有评估:包含 100 个私有任务,用于评估是否存在过拟合
- 公共评估:包含 400 个公共任务
在 OpenAI 的指导下,我们采用了两种计算资源配置进行测试,分别使用不同的样本量:6(高效模式)和 1024(低效模式,使用 172 倍的计算资源)。
测试结果如下:
半私有评估(100个任务):
- 高效模式:准确率 75.7%,成本 2,012 美元,每任务处理 3300 万个标记,单任务成本 20 美元,用时 1.3 分钟,样本大小6.
- 低效模式:准确率 87.5%,处理 57 亿个标记,每任务用时 13.8 分钟(具体成本未知),样板大小:1024.
公共评估(400个任务):
- 高效模式:准确率 82.8%,成本 6,677 美元,每任务处理 1.11 亿个标记,单任务成本 17 美元
- 低效模式:准确率 91.5%,处理 95 亿个标记(具体成本和用时未知)
注:由于 o3 的定价和具体功能仍在确定中,高算力模式的成本暂时无法获知。我们只知道它使用了约 172 倍于低算力模式的计算资源。
关于模型调优:OpenAI 透露他们使用了公共训练集的 75% 来训练我们测试的 o3 版本,但未提供更多细节。我们还没有测试未经 ARC 训练的原始模型,因此无法确定多少性能提升来自 ARC-AGI 数据的训练。
考虑到推理预算的可变性,效率(如计算成本)现已成为性能报告中的必要指标。我们记录了总成本和单任务成本作为初步的效率指标。虽然业界还需要确定最合适的效率衡量标准,但从趋势来看,成本是一个不错的起点。
在 ARC-AGI-Pub 规定的 10,000 美元预算限制内,o3 达到的 75.7% 的高效成绩足以问鼎公共排行榜榜首!
虽然 87.5% 的低效模式成本较高,但它证明了增加计算资源确实能提升模型在新任务上的表现(至少在目前测试的范围内)。
虽然每个任务的成本不菲,但这样的成绩并非仅仅依靠暴力计算得来。OpenAI 的 o3 模型代表了 AI 适应新任务能力的重大突破。这不是简单的性能提升,而是 AI 能力的质的飞跃,远超传统大语言模型的局限。o3 展现了适应全新任务的能力,在 ARC-AGI 领域的表现甚至接近人类水平。
然而,这种通用性的代价不菲,目前还称不上经济实惠:雇人解决 ARC-AGI 任务只需约 5 美元(我们确实这样测试过),能耗仅需几美分。相比之下,o3 即使在低算力模式下每个任务也要花费 17-20 美元。不过,成本效益有望在未来数月乃至数年内显著改善,这些能力很可能在较短时间内就能与人类劳动竞争。
o3 超越 GPT 系列的表现证明了架构的重要性。仅仅增加 GPT-4 的计算量是无法达到这样的效果的。简单地延续 2019-2023 年的思路——用相同架构训练更大模型、投入更多数据——已经不够了。未来的进展需要新的突破。
ARC-AGI 作为一个关键基准,能够以其他测试无法企及的方式检测这类突破性进展,特别是在泛化能力方面。然而,需要明确的是,正如我们今年反复强调的,ARC-AGI 并非 AGI 的决定性测试。它更像是一个研究工具,旨在引导研究人员关注 AI 领域最具挑战性的未解决问题,在过去五年中它很好地完成了这个使命。
通过 ARC-AGI 测试并不意味着实现了 AGI,事实上,我认为 o3 还称不上是真正的 AGI。它在一些非常基础的任务上仍然会失败,这表明它与人类智能还存在本质差异。
更值得注意的是,早期数据显示,即将推出的 ARC-AGI-2 基准测试对 o3 来说仍是一个巨大挑战。即使在高算力模式下,o3 的得分可能还不到 30%,而普通人无需特殊训练就能获得超过 95% 的成绩。这说明我们仍然能够设计出具有挑战性的新基准,而不必依赖专业领域知识。真正的 AGI 到来时,你会发现"设计一个对普通人简单但对 AI 困难的任务"这件事本身变得不可能。
为什么 o3 能远超 o1 的表现?为什么 o1 又能大幅领先 GPT-4o?我认为这一系列结果为我们探索通用人工智能提供了宝贵的参考。
我对大语言模型的理解是:它们本质上是向量程序的数据库。当收到提示时,它们会调取与提示相匹配的程序,并在当前输入上"执行"。大语言模型通过被动吸收人类创造的内容,存储和运行数以百万计的实用小程序。
这种"记忆-检索-应用"的模式在有足够训练数据的情况下,可以在任何任务上达到任意水平的熟练度,但它无法适应新情况或快速掌握新技能(换句话说,它缺乏流动智力)。这一点从大语言模型在 ARC-AGI 测试上的表现就可见一斑。ARC-AGI 是唯一专门用来测试新颖性适应能力的基准,而 GPT-3 得分为 0,GPT-4 接近 0,GPT-4o 也仅达到 5%。即使将这些模型扩展到极限,其 ARC-AGI 分数也无法接近多年前简单暴力枚举方法能达到的水平(50%)。
适应新环境需要两个要素。首先是知识储备——一系列可重复使用的函数或程序。大语言模型在这方面已经做得很好。其次是重组能力——面对新任务时,能够将这些函数重新组合成一个新程序,为当前任务建立模型。这就是程序合成能力。大语言模型一直缺乏这项能力,而 o 系列模型终于解决了这个问题。
目前我们只能推测 o3 的具体运作方式。但其核心机制似乎是在标记空间中进行自然语言程序的搜索和执行——在测试阶段,模型会搜索可能的思维链 (CoTs),描述解决任务的步骤,这个过程可能类似于 AlphaZero 的蒙特卡洛树搜索。在 o3 中,这种搜索可能由某种评估模型引导。值得一提的是,Demis Hassabis 在 2023 年 6 月的采访中曾暗示 DeepMind 一直在研究这个方向——这项技术的发展由来已久。
因此,与传统大语言模型在处理新问题时的困境相比,o3 通过生成和执行自己的程序克服了这一限制,其中程序本身(思维链)成为知识重组的具体体现。虽然这不是测试时知识重组的唯一方法(还可以采用测试时训练或潜在空间搜索),但从最新的 ARC-AGI 测试结果来看,这代表了当前的最高水平。
事实上,o3 代表了一种由深度学习引导的程序搜索方式。在测试过程中,模型会在"程序"空间中搜索(这里的程序指的是自然语言程序——描述解决当前任务步骤的思维链),并由深度学习模型(基础大语言模型)引导。这就解释了为什么解决一个 ARC-AGI 任务可能需要处理数千万个标记并花费数千美元:搜索过程需要在程序空间中探索大量路径,包括需要回溯的情况。
不过,当前的实现与我此前提出的"通往 AGI 的最佳路径是深度学习引导的程序搜索"这一观点有两个明显的区别。关键在于,o3 生成的是需要由大语言模型"执行"的自然语言指令,而不是可直接执行的符号程序。这带来两个重要影响。
首先,这些程序无法通过直接执行和评估与现实世界建立联系——它们必须依赖另一个模型来评估适用性,而这种评估在遇到分布外的情况时可能会出错,因为缺乏实际基础。其次,系统无法像 AlphaZero 那样自主学习生成和评估程序的能力,而是需要依赖专家标注的人工思维链数据。
目前我们还不清楚这个新系统的具体局限性和潜在发展空间。需要进一步测试才能得出结论。但无论如何,目前的成果已经是一个重大突破,并证实了在直觉引导下进行程序空间实时搜索是构建通用 AI 系统的有效方法。
o3 的出现标志着一个重要的里程碑。它在 ARC-AGI 测试中展现出的适应性和泛化能力突破,以其他任何基准测试都无法企及的方式证明了这一点。
o3 通过一种由大语言模型引导的自然语言程序搜索方法,解决了 LLM 范式的根本局限——无法在测试时重组知识。这不是简单的进步,而是开创了一个全新的领域,值得学术界认真研究。
原文:https://arcprize.org/blog/oai-o3-pub-breakthrough
文章来自于微信公众号“AI范儿”,作者“AI范儿”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/