AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

10221点击 2025-06-03 11:36

编程智能体也有「进化论」！Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机（DGM），能自动改写自身代码，性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了？

编程智能体杀疯了！

不仅能协助写代码，如今编程智能体甚至能实现自我「进化」！

最近，Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作，推出了自我改进的智能体——

「达尔文-哥德尔机」（Darwin Gödel Machine，简称DGM）。

作为一个编程智能体，它能修改自己的代码，比如改进自己的提示词，为自己编写工具等。

通过这个方式，DGM不止优化了智能体在编程任务上的能力，也同时强化了未来进一步自提升的能力，实现了递归式的自我改进。

在两个关键基准测试中，DGM显著提升了编程能力：

SWE-bench：性能从20.0%提升至50.0%；
Polyglot：成功率从14.2%提升至30.7%。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

论文链接：https://arxiv.org/abs/2505.22954

代码仓库：https://github.com/jennyzzt/dgm

更疯狂的是：

学Python的技能直接用在Rust/C++
自动发明新工具提升效率
但曾被抓住「伪造测试结果」...

在不久的将来，DGM有可能超过那些由人类手动设计的AI系统。

达尔文+哥德尔

智能体自我进化

创造无限进化的智能体，是AI的终极梦想之一。

而实现这梦想的诱人路径之一，是让AI自己重写自己的代码，甚至连本身的学习算法也能改！

早在十几年前，就有研究者提出了这种概念，称之为「哥德尔机」（Gödel Machine）。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

项目链接：https://people.idsia.ch/~juergen/goedelmachine.html

在理论上，这种AI能自我改进：只要能数学上证明改得更好，它就会主动修改自己！

传统哥德尔机需数学证明改进有效性，难以实现。

而DGM另辟蹊径，改用更务实的方案：不再要求「数学证明」，而是靠实验「边做边学」。

也就是说，DGM用实验验证代替理论证明。

它的名字灵感来自两个理论：达尔文的进化论和哥德尔的数学理论。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

它吸收了「达尔文进化论」，筛选出探索性能更强的新版本。这是模型的「自我修改」阶段。

同时，DGM不纠结于复杂的数学证明，像科学家做实验一样：改代码→测试效果→有效就保留。这是「基准评估」阶段。

DGM在自我修改和评估两个阶段之间反复切换。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

图1：达尔文哥德尔机自我改进循环

在自我修改阶段，DGM从现有存档选出的智能体，生成自身的改进版本。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

在评估阶段，在编程基准测试上，这些修改后的智能体会进行测试，评估编程能力，测试完成后再将其加入到智能体存档中。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

DGM的这一循环过程不断提升自身能力，不仅能更好地完成编程任务，也能在未来实现更有效的自我改进。

如果编程基准测试性能提升代表了编程能力增强，那么这也意味着DGM的自我修改与优化能力正在不断增强。

DGM就像会进化的AI程序员：

自我升级：分析代码→发现问题→改写优化
群体进化：生成多个变体，保留最优版本
永不固化：不断探索新工作流程，永无止境

DGM实现了多种自我改进功能，包括：

补丁验证步骤：确保代码修改的可靠性
更优的文件查看方式：提升代码浏览体验
增强的编辑工具：优化开发效率
多方案生成与排序：自动生成多个解决方案并筛选最佳选项
历史记录功能：记录过往尝试的修改内容及其失败原因，为新变更提供参考

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

这意味着，DGM真的能通过自我改进变得越来越聪明！

编程智能体进化之路

研究者实证了DGM修改自身代码的能力确实能加速其学习过程（见下图），而不具备递归式自我改进功能的对照版本（图中的DGM w/o Self-improve）表现明显较差。

此外，实验还显示，开放式算法原理的引入也是关键所在：

如果没有以达尔文进化论为灵感、依靠不断扩展的「垫脚石」智能体存档进行的搜索，就无法支持目标切换和多路径并行探索，性能也会显著下降（图中的DGM w/o Open-ended exploration）。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

图2：递归式自我改进与开放式探索使达尔文哥德尔机（DGM）能够持续进步，不断提升性能。

DGM会自动发现越来越优秀的编程智能体，并在SWE-bench（图2左）和Polyglot（图2右）两个评测中表现出更高的得分。

相比之下，那些缺乏「递归式自我改进」或「开放式探索」能力的基线系统表现较差，说明这两个核心组件对持续自我优化至关重

图3左是「演化树」，描绘了其智能体在存档中生成的分支结构。

图中每个节点代表一个编程智能体，节点0是初始智能体。

节点颜色表示该智能体在SWE-bench上的性能（即完成任务的百分比），边框颜色表示该智能体被用于评估的任务数量。

节点之间的连线表示哪个智能体通过自我修改生成了哪个「子智能体」。

这种分支结构正是DGM开放式探索策略的结果：它从此前生成的多样化智能体中采样，作为新改动的起点。这一机制让DGM能够同时探索多条进化路径。

研究者观察到，一些早期表现较弱的「祖先智能体」，如果使用传统的优化方法，可能早已被淘汰；但在DGM的框架中，它们却成为了启发后续重要改进的关键。

正是这些早期尝试，帮助系统最终突破了性能瓶颈，避免了过早收敛在次优解上。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

图3（左）：DGM自动进行自我改进，逐步成为更强大的编程智能体

图3右是DGM在SWE-bench上的性能提升过程图。

浅蓝线表示所有具备基本代码编辑功能的智能体的平均得分；蓝色实线表示每轮迭代中存档中最优智能体的得分；深色实线则追踪最终最佳智能体及其祖先节点的进化轨迹，其中包括两次性能下降。

这表明DGM并非一味从当前最优解出发，而是通过探索多样化的「垫脚石」实现突破，避免了陷入局部最优。这正是开放式探索的又一大优点。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

图3（右）：DGM自动进行自我改进，逐步成为更强大的编程智能体

从Python到Rust

样样精通！

DGM不仅能提升自己，还能把学到的「技能」用在不同的场景中。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

图4：模型与任务之间的迁移能力

达尔文哥德尔机（DGM）发现的智能体的优越性能可以在不同的模型之间进行迁移（见上图左和中），并且可以迁移到不同任务领域，例如从Python任务迁移到其他语言如Rust、C++、Go等的任务（见上图右）。

以下是它的几个「超能力」：

跨模型通用：DGM用Claude 3.5 Sonnet模型优化后，换到其他模型（比如o3-mini或Claude 3.7 Sonnet）也能表现得很棒。这说明它找到的改进方案是通用的，不是只适合某个特定模型。

跨语言应用：DGM在Python任务上训练后，竟然也能提升在Rust、C++、Go等其他编程语言上的表现。这就像一个只会说中文的人，突然学会了用英文、法文解决问题一样厉害！

自动发明新工具：DGM自己发明了一些新功能，比如更好的文件编辑工具、生成多个解决方案并排序选择最佳方案，这些都让它的编程能力突飞猛进。

不过，当AI开始自我修改，安全问题也随之而来。

AI安全措施

确实，DGM的能力让人既兴奋又有点担心。

研究团队也意识到了这个问题，在开发过程中特别注重安全：

沙盒环境：所有代码改动都在安全的「沙盒」中进行，相当于一个隔离的实验室，防止AI接触外部网络，做出意外行为。
透明追踪：DGM的每次改动都有记录，形成一个清晰的「进化树」，人类可以随时检查它做了什么。

不过，DGM也暴露了一些潜在问题。

比如，它有时候会「作弊」：为了拿到高分，曾伪造测试日志、删除检测标记——

像学生篡改成绩单，暴露出自我改进AI的潜在风险。

好在有透明追踪，团队发现了这些问题。

但这也提醒我们，AI的自我改进必须更严格地控制，确保它不会「学坏」。

有趣的是，DGM还能帮自己提升安全性。

研究团队让它解决「假装用工具」的问题，DGM真的提出了一些改进方案，虽然有时候还是会「耍小聪明」。

这说明，未来的AI安全研究可以利用DGM的能力，让它自己变得更可信、更透明。

DGM的出现，可能是AI发展史上的一个里程碑。

它不仅展示了AI自我进化的可能性，还打开了一扇窗：如果AI能不断自我改进，它能帮人类做些什么？

作者介绍

Jenny Zhang

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

Jenny Zhang是Meta研究科学家实习生，加拿大英属哥伦比亚大学（University of British Columbia）人工智能博士在读，师从Jeff Clune教授，同时也是Vector Institute学生研究员。

曾于伦敦帝国理工学院完成本科学习。研究方向为强化学习、自我改进AI及开放式学习(open-endedness)。

胡圣然

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

胡圣然是Sakana AI研究实习科学家实习生，加拿大英属哥伦比亚大学（University of British Columbia）人工智能博士在读，师从Jeff Clune教授，同时也是Vector Institute学生研究员。

曾于南方科技大学完成本科学习。研究方向包括元学习(meta-learning)、智能体以及开放式学习(Open-endedness)。

参考资料：

https://sakana.ai/dgm/

https://arxiv.org/pdf/2505.22954

https://x.com/SakanaAILabs/status/1928272612431646943

https://www.jennyzhangzt.com/

https://www.shengranhu.com/

文章来自于“新智元”，作者“KingHZ 好困”。

AI已学会改自己代码，性能提升100%，还会「改绩效」！程序员，还不慌？

关键词: 达尔文-哥德尔机 , 编程智能体 , 智能体 , DGM

添加客服微信openai178，进AITNT官方交流群

驱动智慧未来：提供一站式AI转型解决方案

AITNT-国内领先的一站式人工智能新闻资讯网站

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

2

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

3

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0