AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了
7077点击    2026-05-06 09:48

Anthropic联合创始人Jack Clark读完数百份公开数据,得出一个让他自己也坐不住的结论:2028年底前,AI自己造AI的概率是60%。支撑他这一判断的,是编程、科研复现、模型训练优化等多条能力曲线:每一条都在向右上方飞,没有减速迹象。


AI系统,可能很快就能自行构建自身了!


说这句话的人,是Anthropic联合创始人Jack Clark。


5月4日,他在X上发帖:「我认为,递归自我改进(RSI)有60%的概率在2028年底之前发生。」


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了


除了Anthropic联合创始人身份之外,Clark还是《Import AI》的创办者兼主笔,长期跟踪AI能力进展。


这次发帖,他在《Import AI》上同时发布了一篇完整的分析文章。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://importai.substack.com/p/import-ai-455-automating-ai-research


这是一件大事。我不知道该如何理解它。这是一个我不情愿接受的看法:其影响太过巨大,让我感到自身渺小,而且我不确定,社会是否已准备好迎接自动化AI研发所带来的变革。


Clark在文章里写:如果这一天到来,人类将跨过一道「卢比孔河」,进入一个几乎无法预测的未来


他不认为这会发生在2026年,但他预判一两年内可能在非前沿模型上,出现这样的概念验证:一个模型,端到端训练出自己的继任者。


支撑Clark结论的,主要来自公开信息:arXiv、bioRxiv、NBER上的论文,加上他对各大前沿实验室产品的持续观察,Clark以此拼凑出一幅关于AI进展的全景图。


在他看来,AI工程化生产的所有组件,今天已经基本齐了。剩下的问题是:模型什么时候能积累足够的创造力,开始像人类研究员一样推动前沿演进。


四年

从30秒到12小时


Clark的核心论据,是一批能力进展曲线。


先看METR的时间轴图。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://metr.org/time-horizons/


METR是一个专注AI能力评估的机构,他们追踪的是:AI系统能独立完成一项任务,在50%成功率水平线上,这项任务如果让一个熟练的人来做大概需要多少时间。


  • 2022年,GPT-3.5的数字是:30秒;
  • 2023年,GPT-4把这个数字推到了4分钟;
  • 2024年,o1推到了40分钟;
  • 2025年,GPT-5.2(高配版)跨到了6小时;
  • 2026年,Claude Opus 4.6已经到了12小时。


四年,从30秒到12小时,翻了1440倍!


AI能力研究员Ajeya Cotra认为,2026年底之前,这个数字有望突破100小时。


如果达到100小时时间跨度,它将能覆盖许多多日级软件/研究辅助任务。


编程能力同样也在起飞。


SWE-Bench衡量的是AI解决真实GitHub工程问题的能力。2023年底,Claude 2的得分是2%。到今年,Claude Mythos Preview达到93.9%,这个基准基本被打穿了。


CORE-Bench测的是另一件事:给AI一篇论文和对应的代码库,让它独立复现实验结果,这是AI研究员最基本的日常工作之一。


2024年9月该测试推出时,最好成绩是21.5%。2025年12月,Opus 4.5在Claude Code scaffold下verified accuracy 为77.78%,经人工校验后为95.5%,项目方称CORE-Bench已被解决。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://hal.cs.princeton.edu/corebench_hard


15个月,从21.5%到95.5%。


MLE-Bench测的是AI独立参加Kaggle竞赛的能力,覆盖75个真实比赛项目。


2024年10月发布时最高分16.9%,到2026年2月,Gemini 3加搜索工具的组合已经达到64.4%。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://github.com/openai/mle-bench


Anthropic内部还有一个测试:让模型优化一个仅使用CPU的小型语言模型训练代码,越快越好,以未优化版本的速度为基准。


  • 2025年5月,Claude Opus 4:2.9倍;
  • 2025年11月,Opus 4.5:16.5倍;
  • 2026年2月,Opus 4.6:30倍;
  • 2026年4月,Claude Mythos Preview:52倍。


不到一年,从2.9倍涨到52倍。


这是AI在优化AI训练代码这件事情上的进展速度。


99%的工程活

AI快接完了


这里有一个关键问题:AI研究这件事,到底有多少是纯工程,多少是真正的创意?


Clark给出了一个框架,引用了爱迪生那句话:天才是1%的灵感和99%的汗水。


他认为,AI研究也是如此。


一个典型的AI研究循环是这样的:拿一个现有系统,在某个维度上扩大规模,观察什么地方开始出问题,修掉工程问题,再扩大一轮。


这个过程里,大部分工作是数据清洗、跑实验、调参数、读论文、复现结果,这些都是「汗水」,不是「灵感」。


偶尔会出现真正改变范式的发明,比如Transformer架构,比如混合专家模型(MoE)。但那是1%,而且这1%越来越不是瓶颈,因为那99%的工程工作正在被AI快速接管。


Clark列了几个信号:


AI已经能管理其他AI。Claude Code、OpenCode这类工具里,单个AI可以扮演「项目经理」,把任务分发给多个子AI并行处理,之后汇总结果。


这和一个人类研究团队的组织方式没有本质区别。


PostTrainBench测试了一件事:AI能不能自己微调开源小模型,提升它在某个任务上的表现?


这个工作通常是前沿实验室里有经验的研究员在做。


截至2026年3月,AI系统在这个任务上能做到人类研究员效果的一半左右,大约是25%到28%的提升幅度,而人类基线是51%。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://posttrainbench.com/


Anthropic内部还有一个「自动化对齐研究」的概念验证:让一组AI agent,在AI安全研究问题上自主攻关。


结果是,AI给出的方案超过了Anthropic人类研究员的基线。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://www.anthropic.com/research/automated-alignment-researchers


Clark把这些证据串在一起的判断是:AI今天已经能自动化AI工程的绝大部分,AI研究里有多少能自动化,还不完全清楚,但迹象已经很明显。


质疑声也来了


Clark的帖子发出后,行业里也出现了一些质疑。


华盛顿大学机器学习教授,《终极算法》作者Pedro Domingos回复到:「从LISP在50年代发明以来,AI就能构建自己了。问题在于,这个过程究竟能带来递增回报还是递减回报——而目前没有任何证据支持前者。」


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了


递归自我改进听起来很科幻,但能循环不等于循环有收益。如果每一代AI优化自己的效率只有边际改善,而不是指数级放大,那这件事的影响范围会非常有限。


还有人质疑概念边界。「RSI到底有没有一个权威定义?」一位名叫Dan Brickley的研究员问道。


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了


另一个更尖锐的观察来自账号@crepesupreme:


2027年30%,2028年60%。一年内概率跳升30个百分点,意味着2027到2028年之间存在某个不连续的能力事件。那个具体事件是什么?


Clark在通讯文章里回应了这个隐含问题:他认为AI研究仍需要某种创意突破才能真正进入「自我研发」循环:AI目前在这一块还没有变革性的表现。这正是他给2027年只打30%的原因;而如果这个缺口在2028年底前被填上,概率就升到60%。


但他同时也承认,自己预判的是概率,而不是确切的时间点。


还有人问他:「你在Anthropic工作,你为什么要去翻公开数据?直接走下楼去问研究员不就行了?」


Clark的答案是:用公开数据,是因为公开数据才有可信度。他要的不是内部判断,是一个任何人都能独立核验的结论。


窗口还开着

但在缩窄


Clark在通讯文章里写:他为什么不给2027年更高的概率?


因为他认为AI研究还包含一些对创意直觉的要求,而AI目前在这一块只有「诱人的早期信号」,还没有系统性突破。


他列了两个信号:一个是Gemini模型参与攻克Erdős数学问题,在700个问题里解出了1个被数学家认为有一定原创性的解。


另一个是斯坦福、UBC等机构与Google DeepMind合作,AI在发现新数学证明中起到了「非常实质性的作用」。


这些结果在AI能力演化的时间轴上,可能是某种早期信号。


Clark的估计是:如果2028年底没有出现他描述的情况,那说明当前技术路径存在某个根本性的能力天花板,需要人类的创意才能突破。


更关键的是「如果出现了」之后的问题。


Anthropic在2026年3月宣布成立The Anthropic Institute时,官方声明里写了这样一句话:


如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?


AI自己造AI,概率60%,2028年底前!Anthropic联创坐不住了

https://www.anthropic.com/news/the-anthropic-institute


连Anthropic自己,都还没有这个问题的完整答案。


Clark在通讯文章里给出了一个更技术性的担忧:今天的对齐技术,如果有99.9%的准确率,在递归迭代50代之后,准确率会跌到95.1%;迭代500代之后,跌到60.5%。


除非你的对齐方案在理论上能保证在更智能的系统上同样有效,否则问题会很快出现。


也许,Clark想要说的是:治理窗口是有限的,而且它正在缩窄。他希望通过文章发出一个提醒:这件事留给讨论、研究和治理设计的时间,比大多数人想象的短。


据奥特曼直播及媒体报道,OpenAI的目标是让AI在2026年9月前达到「AI 研究实习生」水平,2028年达到更完整的自动化研究员;Anthropic自己也在发表自动化对齐研究的概念验证;一家叫Recursive Superintelligence的新公司刚刚完成5亿美元融资,其目标之一就是自动化AI研究。


整个行业已经在朝这个方向加速了。


Clark说,无论从哪个维度看,数据都指向同一个方向,而每一条曲线,都在向右上方飞,时间越长,能力越强,而且没有任何一条显示出减速的迹象。


参考资料:

https://x.com/chatgpt21/status/2051314386317295758

https://importai.substack.com/p/import-ai-455-automating-ai-research

https://www.anthropic.com/research/automated-alignment-researchers


文章来自于"新智元",作者 "元宇"。

关键词: AI新闻 , Anthropic , AGI , Import AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales