Llama 4 或许只是冰山一角。
「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。
他在创业过程中发现,自去年 8 月以来,AI 大模型(如 Claude 3.7 等)在官方发布的基准测试上声称的巨大进步与实际应用场景中的有限提升之间存在明显脱节。这导致他们无法借助模型能力来提升产品体验。很多 YC 创业者也有类似的体验。
作者认为,这其中可能的原因包括基准测试作弊、基准无法衡量实用性或模型实际很聪明但对齐存在瓶颈。如果不解决这些基础问题,AI 系统可能会在表面上显得很聪明,但在组合成社会系统时会出现根本问题。
以下是博客原文:
大约九个月前,我和三个朋友认为人工智能已经足够好,可以自主监控大型代码库的安全问题了。我们围绕这个任务成立了一家公司,试图利用最新的大模型能力来创建一种工具,用以取代至少很大一部分渗透测试人员的价值。我们从 2024 年 6 月开始从事这个项目。
在公司成立后的头三个月内,Anthropic 的 Claude 3.5 sonnet 就发布了。只需切换在 GPT-4o 上运行的服务部分,我们刚刚起步的内部基准测试结果就会立即开始饱和。我记得当时很惊讶,我们的工具不仅似乎犯的基本错误更少,而且其书面漏洞描述和严重性估计似乎也有了质的提高。就好像即使是在不完整的信息中,这些模型也能更善于推断人类提示背后的意图和价值。
事实上,安全研究基本上没有公开的基准。有「网络安全」评估会向 AI 模型询问有关孤立代码块的问题,「CTF」评估会为模型提供明确的挑战描述和对 <1kLOC Web 应用程序的 shell 访问权限。但没有什么能触及 LLM 应用程序渗透测试的难点 —— 一是浏览一个太大而无法放在上下文中的真实代码库;二是推断目标应用程序的安全模型;三是深入理解其实现,以了解该安全模型在哪里出现了问题。
出于这些原因,我认为漏洞识别任务是衡量 LLM 在狭窄的软件工程领域之外的泛化性的一个很好的试金石。
自 3.5-sonnet 以来,我们一直在监控 AI 大模型的发布,并尝试过几乎每个声称有所改进的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我们尝试的所有新模型都没有对我们的内部基准或开发人员发现新错误的能力产生重大影响。这包括新的测试时间计算 OpenAI 模型。
起初我很紧张,不敢公开报告此事,因为我认为这可能会对我们团队产生不良影响。自去年 8 月以来,我们的扫描有了很大的改进,但这是因为常规工程,而不是模型改进的提升。这可能是我们设计的架构存在问题,随着 SWE-Bench 分数的上升,我们并没有获得更多的进展。
但最近几个月,我与其他从事 AI 应用初创企业的 YC 创始人进行了交谈,他们中的大多数人都有相同的经历:1. 见证了 o99-pro-ultra 大模型发布,2. 基准测试看起来不错,3. 实际应用评估表现平平。尽管我们从事不同的行业,处理不同的问题,但情况大致相同。有时创始人会对这种说法做出回应(「我们只是没有任何博士级的问题可以问」),但这种说法是存在的。
我读过这些研究,也看过这些数字。也许与大模型的交谈变得更有趣了,也许他们在受控考试中表现得更好了。但我仍然想根据内部基准以及我自己和同事们使用这些模型的看法提出观点:大模型公司向公众报告的任何提升都不能反映经济实用性或普遍性。它们不能反映我或我客户的实际体验。就能够执行全新的任务或更大比例的用户智力劳动而言,我认为自去年 8 月以来它们就没有太大进步了。
如果你是大模型竞品公司的工程师,这或许是个好消息!对我个人而言,作为一个试图利用大模型能力赚钱的人,它们还没有聪明到能解决整个问题,对那些担心快速过渡到 AI 经济会带来道德风险的人来说,或许也不需要太过担忧了。
与此同时,有一种观点认为,模型得分与消费者体验脱节是一个不好的迹象。如果业界现在还搞不清楚如何衡量模型的智力,而模型大多局限于聊天机器人,那么当 AI 在管理公司或制定公共政策时,又该如何制定衡量其影响的标准呢?如果我们在将公共生活中繁琐而艰难的部分委托给机器之前就陷入了古德哈特定律(当一个政策变成目标,它将不再是一个好的政策),我想知道原因。
AI 实验室的创始人们经常认为,他们正在进行一场文明竞争,以控制整个未来的光锥,如果他们成功了,世界就将会改变。指责这些创始人从事欺诈行为以进一步实现这些目的是相当合理的。
即使你一开始对科技大佬的评价异常高,你也不应该指望他们在这场竞赛中成为自己模型表现的诚信来源。如果你能规避惩罚,那么夸大能力或有选择地披露有利的结果有非常强大的短期激励。投资是其中之一,但吸引人才和赢得(具有心理影响力的)声望竞赛可能也是同样重要的激励因素。而且基本上没有法律责任迫使实验室对基准测试结果保持透明或真实,因为从来没有人因为在测试数据集上进行训练然后向公众报告该表现而被起诉或被判犯有欺诈罪。
如果你尝试过,任何这样的实验室仍然可以声称自己在非常狭隘的意义上说的是实话,因为该模型「确实在该基准上实现了该性能」。如果对重要指标的一阶调整在技术意义上可以被视为欺诈,那么负责伪造统计数据的团队还有一百万种其他方式来稍微间接地处理它。
在本文的初稿中,我在上面一段后面加上了这样一句话:「话虽如此,不可能所有收益都来自作弊,因为一些基准测试有保留数据集。」最近有一些私人基准测试,如 SEAL,似乎显示出了改进。但 OpenAI 和 Anthropic 发布的每一个基准测试都有一个公开的测试数据集。我能想到的唯一例外是 ARC-AGI 奖,其「半私人」评估中的最高分由 o3 获得,但尽管如此,它尚未对 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 进行过公开评估。关于 o3 本身:
所以也许没有什么秘密:AI 实验室公司在撒谎,当他们改进基准测试结果时,是因为他们之前已经看到过答案并把它们写下来了。从某种意义上说,这可能是最幸运的答案,因为这意味着我们在衡量 AGI 性能方面其实并没有那么糟糕;我们只是面临着人为的欺诈。欺诈是人的问题,而不是潜在技术困难的迹象。
我猜这在一定程度上是正确的,但并非全部。
假设你对一个人的唯一了解是他们在瑞文渐进矩阵(智商测试)中得分为 160。你可以对这个人做出一些推断:例如,RPM 得分越高,可推断出生活条件越积极,比如职业收入很高、健康状况很好、不会进监狱等等。
你可以做出这些推断,部分原因是在测试人群中,瑞文渐进矩阵测试的分数可以反映人类在相关任务上的智力能力。完成标准智商测试并获得高分的能力不仅能让你了解这个人的「应试」能力,还能让你了解这个人在工作中的表现如何,这个人是否做出了正确的健康决定,他们的心理健康是否良好,等等。
至关重要的是,这些相关性不必很强,瑞文测试才能成为有用的诊断工具。患者不会接受智商测试训练,而且人类大脑的设计也并非是为了在 RPM 等测试中获得高分。我们在这些测试中的优异表现(相对于其他物种而言)是过去 5 万年中偶然发生的事情,因为进化间接地让我们能够追踪动物、灌溉庄稼和赢得战争。
然而在大模型领域,除了几个明显的例外,我们几乎所有的基准测试都具有标准化测试的外观和感觉。我的意思是,每一个都是一系列学术难题或软件工程挑战,每个挑战你都可以在不到几百个 token 的时间内消化并解决。也许这只是因为这些测试评估起来更快,但人们似乎理所当然地认为,能够获得 IMO 金牌的 AI 模型将具有与陶哲轩相同的能力。因此,「人类的最后考试」(ENIGMAEVAL)不是对模型完成 Upwork 任务、完成视频游戏或组织军事行动的能力的测试,而是一个自由反应测验。
我不会做任何「人类的最后考试」的测试问题,但我今天愿意打赌,第一个拿到满分的大模型仍然无法作为软件工程师就业。 HLE 和类似的基准测试很酷,但它们无法测试语言模型的主要缺陷,比如它们只能像小商贩一样通过复述的方式来记住东西。Claude Plays Pokemon 是一个被过度使用的例子,因为视频游戏涉及许多人类特定能力的综合。这项任务适合于偶尔回忆 30 分钟前学到的东西,结果不出所料地糟糕。
就我个人而言,当我想了解未来能力的改进时,我将几乎只关注 Claude Plays Pokemon 这样的基准测试。我仍然会查看 SEAL 排行榜,看看它在说什么,但我的 AI 时间表的决定因素将是我在 Cursor 中的个人经历,以及 LLM 处理类似你要求员工执行的长期任务的能力,其他的一切都太过嘈杂。
在介绍下一点之前,让我先介绍一下我们的业务背景。
正如我所提到的,我的公司使用这些模型来扫描软件代码库以查找安全问题。从事这个特定问题领域(维护已交付软件的安全性)工作的人被称为 AppSec 工程师。
事实上,大多数大公司的 AppSec 工程师都有很多代码需要保护。他们的工作过度,典型要回答的问题不是「我如何确保这个应用程序没有漏洞」,而是「我如何管理、筛选和解决我们 8000 条产品线中已经存在的大量安全问题」。
如果他们收到一条警报,他们希望它影响活跃的、理想情况下可通过互联网访问的生产服务。任何低于这个水平的情况都意味着要么有太多结果需要审查,要么安全团队是在浪费有限的沟通资源来要求开发人员修复甚至可能没有影响的问题。
因此,我们自然会尝试构建我们的应用程序,以便它只报告影响活跃的、理想情况下可通过互联网访问的生产服务的问题。但是,如果你只是向聊天模型解释这些限制,它们会偶尔遵循人的指示。例如,如果你告诉他们检查一段代码是否存在安全问题,他们倾向于像你是刚刚在 ChatGPT UI 中询问该代码的开发人员一样做出回应,因此会推测代码有问题或险些失误。即使你提供了我刚刚概述的情况的完整书面描述,几乎每个公共模型都会忽略你的情况,并将无法利用的 SQL 查询连接报告为「危险」。
这并不是说 AI 模型认为它遵循了你的指示,但实际上并没有。LLM 实际上会在简单的应用程序中说,它报告的是一个「潜在」问题,并且可能无法验证。我认为发生的情况是,大型语言模型被训练成在与用户的实时对话中「看起来很聪明」,因此它们更喜欢突出显示可能的问题,而不是确认代码看起来不错,就像人类想要演得很聪明时所做的那样。
每个 LLM 应用初创公司都会遇到这样的限制。当你是一个直接与聊天模型交互的人时,阿谀奉承和诡辩只是小麻烦,甚至也是能适应的。当你是一个团队试图将这些模型组合成更大的系统时(由于前面提到的内存问题,这是必要的),想要看起来不错会引发严重的问题。更智能的模型可能会解决这个问题,但它们也可能使问题更难检测,特别是当它们取代的系统变得更加复杂并且更难验证输出时。
有很多不同的方法来克服这些缺陷。在有人想出解决问题的外在表现之前,我们完全有可能无法解决核心问题。
我认为这样做是一个错误。这些 AI 机器很快就会成为我们生活的社会的跳动的心脏。它们在组合和互动时创造的社会和政治结构将定义我们周围看到的一切。更重要的是,它们要尽可能地有道德。
原文链接:
https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit
文章来自于“机器之心”,作者“lc 机器之心编译”。