编程智能体也有「进化论」!Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机(DGM),能自动改写自身代码,性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了?
编程智能体杀疯了!
不仅能协助写代码,如今编程智能体甚至能实现自我「进化」!
最近,Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作,推出了自我改进的智能体——
「达尔文-哥德尔机」(Darwin Gödel Machine,简称DGM)。
作为一个编程智能体,它能修改自己的代码,比如改进自己的提示词,为自己编写工具等。
通过这个方式,DGM不止优化了智能体在编程任务上的能力,也同时强化了未来进一步自提升的能力,实现了递归式的自我改进。
在两个关键基准测试中,DGM显著提升了编程能力:
论文链接:https://arxiv.org/abs/2505.22954
代码仓库:https://github.com/jennyzzt/dgm
更疯狂的是:
在不久的将来,DGM有可能超过那些由人类手动设计的AI系统。
创造无限进化的智能体,是AI的终极梦想之一。
而实现这梦想的诱人路径之一,是让AI自己重写自己的代码,甚至连本身的学习算法也能改!
早在十几年前,就有研究者提出了这种概念,称之为「哥德尔机」(Gödel Machine)。
项目链接:https://people.idsia.ch/~juergen/goedelmachine.html
在理论上,这种AI能自我改进:只要能数学上证明改得更好,它就会主动修改自己!
传统哥德尔机需数学证明改进有效性,难以实现。
而DGM另辟蹊径,改用更务实的方案:不再要求「数学证明」,而是靠实验「边做边学」。
也就是说,DGM用实验验证代替理论证明。
它的名字灵感来自两个理论:达尔文的进化论和哥德尔的数学理论。
它吸收了「达尔文进化论」,筛选出探索性能更强的新版本。这是模型的「自我修改」阶段。
同时,DGM不纠结于复杂的数学证明,像科学家做实验一样:改代码→测试效果→有效就保留。这是「基准评估」阶段。
DGM在自我修改和评估两个阶段之间反复切换。
图1:达尔文哥德尔机自我改进循环
在自我修改阶段,DGM从现有存档选出的智能体,生成自身的改进版本。
在评估阶段,在编程基准测试上,这些修改后的智能体会进行测试,评估编程能力,测试完成后再将其加入到智能体存档中。
DGM的这一循环过程不断提升自身能力,不仅能更好地完成编程任务,也能在未来实现更有效的自我改进。
如果编程基准测试性能提升代表了编程能力增强,那么这也意味着DGM的自我修改与优化能力正在不断增强。
DGM就像会进化的AI程序员:
DGM实现了多种自我改进功能,包括:
这意味着,DGM真的能通过自我改进变得越来越聪明!
研究者实证了DGM修改自身代码的能力确实能加速其学习过程(见下图),而不具备递归式自我改进功能的对照版本(图中的DGM w/o Self-improve)表现明显较差。
此外,实验还显示,开放式算法原理的引入也是关键所在:
如果没有以达尔文进化论为灵感、依靠不断扩展的「垫脚石」智能体存档进行的搜索,就无法支持目标切换和多路径并行探索,性能也会显著下降(图中的DGM w/o Open-ended exploration)。
图2:递归式自我改进与开放式探索使达尔文哥德尔机(DGM)能够持续进步,不断提升性能。
DGM会自动发现越来越优秀的编程智能体,并在SWE-bench(图2左)和Polyglot(图2右)两个评测中表现出更高的得分。
相比之下,那些缺乏「递归式自我改进」或「开放式探索」能力的基线系统表现较差,说明这两个核心组件对持续自我优化至关重
图3左是「演化树」,描绘了其智能体在存档中生成的分支结构。
图中每个节点代表一个编程智能体,节点0是初始智能体。
节点颜色表示该智能体在SWE-bench上的性能(即完成任务的百分比),边框颜色表示该智能体被用于评估的任务数量。
节点之间的连线表示哪个智能体通过自我修改生成了哪个「子智能体」。
这种分支结构正是DGM开放式探索策略的结果:它从此前生成的多样化智能体中采样,作为新改动的起点。这一机制让DGM能够同时探索多条进化路径。
研究者观察到,一些早期表现较弱的「祖先智能体」,如果使用传统的优化方法,可能早已被淘汰;但在DGM的框架中,它们却成为了启发后续重要改进的关键。
正是这些早期尝试,帮助系统最终突破了性能瓶颈,避免了过早收敛在次优解上。
图3(左):DGM自动进行自我改进,逐步成为更强大的编程智能体
图3右是DGM在SWE-bench上的性能提升过程图。
浅蓝线表示所有具备基本代码编辑功能的智能体的平均得分;蓝色实线表示每轮迭代中存档中最优智能体的得分;深色实线则追踪最终最佳智能体及其祖先节点的进化轨迹,其中包括两次性能下降。
这表明DGM并非一味从当前最优解出发,而是通过探索多样化的「垫脚石」实现突破,避免了陷入局部最优。这正是开放式探索的又一大优点。
图3(右):DGM自动进行自我改进,逐步成为更强大的编程智能体
DGM不仅能提升自己,还能把学到的「技能」用在不同的场景中。
图4:模型与任务之间的迁移能力
达尔文哥德尔机(DGM)发现的智能体的优越性能可以在不同的模型之间进行迁移(见上图左和中),并且可以迁移到不同任务领域,例如从Python任务迁移到其他语言如Rust、C++、Go等的任务(见上图右)。
以下是它的几个「超能力」:
不过,当AI开始自我修改,安全问题也随之而来。
AI安全措施
确实,DGM的能力让人既兴奋又有点担心。
研究团队也意识到了这个问题,在开发过程中特别注重安全:
不过,DGM也暴露了一些潜在问题。
比如,它有时候会「作弊」:为了拿到高分,曾伪造测试日志、删除检测标记——
像学生篡改成绩单,暴露出自我改进AI的潜在风险。
好在有透明追踪,团队发现了这些问题。
但这也提醒我们,AI的自我改进必须更严格地控制,确保它不会「学坏」。
有趣的是,DGM还能帮自己提升安全性。
研究团队让它解决「假装用工具」的问题,DGM真的提出了一些改进方案,虽然有时候还是会「耍小聪明」。
这说明,未来的AI安全研究可以利用DGM的能力,让它自己变得更可信、更透明。
DGM的出现,可能是AI发展史上的一个里程碑。
它不仅展示了AI自我进化的可能性,还打开了一扇窗:如果AI能不断自我改进,它能帮人类做些什么?
Jenny Zhang
Jenny Zhang是Meta研究科学家实习生,加拿大英属哥伦比亚大学(University of British Columbia)人工智能博士在读,师从Jeff Clune教授,同时也是Vector Institute学生研究员。
曾于伦敦帝国理工学院完成本科学习。研究方向为强化学习、自我改进AI及开放式学习(open-endedness)。
胡圣然
胡圣然是Sakana AI研究实习科学家实习生,加拿大英属哥伦比亚大学(University of British Columbia)人工智能博士在读,师从Jeff Clune教授,同时也是Vector Institute学生研究员。
曾于南方科技大学完成本科学习。研究方向包括元学习(meta-learning)、智能体以及开放式学习(Open-endedness)。
参考资料:
https://sakana.ai/dgm/
https://arxiv.org/pdf/2505.22954
https://x.com/SakanaAILabs/status/1928272612431646943
https://www.jennyzhangzt.com/
https://www.shengranhu.com/
文章来自于“新智元”,作者“KingHZ 好困”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0