AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?
7758点击    2025-06-03 11:36

编程智能体也有「进化论」!Transformer作者初创Sakana AI与UBC推出达尔文-哥德尔机(DGM),能自动改写自身代码,性能翻倍超越人工设计。还能跨语言迁移、发明新工具。AI要觉醒了?


编程智能体杀疯了!


不仅能协助写代码,如今编程智能体甚至能实现自我「进化」!


最近,Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作,推出了自我改进的智能体——


「达尔文-哥德尔机」(Darwin Gödel Machine,简称DGM)。


作为一个编程智能体,它能修改自己的代码,比如改进自己的提示词,为自己编写工具等。


通过这个方式,DGM不止优化了智能体在编程任务上的能力,也同时强化了未来进一步自提升的能力,实现了递归式的自我改进。


在两个关键基准测试中,DGM显著提升了编程能力:


  • SWE-bench:性能从20.0%提升至50.0%;
  • Polyglot:成功率从14.2%提升至30.7%


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


论文链接:https://arxiv.org/abs/2505.22954

代码仓库:https://github.com/jennyzzt/dgm


更疯狂的是:


  • 学Python的技能直接用在Rust/C++
  • 自动发明新工具提升效率
  • 但曾被抓住「伪造测试结果」...


在不久的将来,DGM有可能超过那些由人类手动设计的AI系统。


达尔文+哥德尔

智能体自我进化


创造无限进化的智能体,是AI的终极梦想之一。


而实现这梦想的诱人路径之一,是让AI自己重写自己的代码,甚至连本身的学习算法也能改!


早在十几年前,就有研究者提出了这种概念,称之为「哥德尔机」(Gödel Machine)。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


项目链接:https://people.idsia.ch/~juergen/goedelmachine.html


理论上,这种AI能自我改进:只要能数学上证明改得更好,它就会主动修改自己


传统哥德尔机需数学证明改进有效性,难以实现。


而DGM另辟蹊径,改用更务实的方案:不再要求「数学证明」,而是靠实验「边做边学」


也就是说,DGM用实验验证代替理论证明


它的名字灵感来自两个理论:达尔文的进化论和哥德尔的数学理论。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


它吸收了「达尔文进化论」,筛选出探索性能更强的新版本。这是模型的「自我修改」阶段。


同时,DGM不纠结于复杂的数学证明,像科学家做实验一样:改代码→测试效果→有效就保留。这是「基准评估」阶段。


DGM在自我修改和评估两个阶段之间反复切换。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

图1:达尔文哥德尔机自我改进循环


在自我修改阶段,DGM从现有存档选出的智能体,生成自身的改进版本。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


在评估阶段,在编程基准测试上,这些修改后的智能体会进行测试,评估编程能力,测试完成后再将其加入到智能体存档中。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


DGM的这一循环过程不断提升自身能力,不仅能更好地完成编程任务,也能在未来实现更有效的自我改进。


如果编程基准测试性能提升代表了编程能力增强,那么这也意味着DGM的自我修改与优化能力正在不断增强。


DGM就像会进化的AI程序员:


  • 自我升级:分析代码→发现问题→改写优化
  • 群体进化:生成多个变体,保留最优版本
  • 永不固化:不断探索新工作流程,永无止境


DGM实现了多种自我改进功能,包括:


  • 补丁验证步骤:确保代码修改的可靠性
  • 更优的文件查看方式:提升代码浏览体验
  • 增强的编辑工具:优化开发效率
  • 多方案生成与排序:自动生成多个解决方案并筛选最佳选项
  • 历史记录功能:记录过往尝试的修改内容及其失败原因,为新变更提供参考


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


这意味着,DGM真的能通过自我改进变得越来越聪明!


编程智能体进化之路


研究者实证了DGM修改自身代码的能力确实能加速其学习过程(见下图),而不具备递归式自我改进功能的对照版本(图中的DGM w/o Self-improve)表现明显较差。


此外,实验还显示,开放式算法原理的引入也是关键所在:


如果没有以达尔文进化论为灵感、依靠不断扩展的「垫脚石」智能体存档进行的搜索,就无法支持目标切换和多路径并行探索,性能也会显著下降(图中的DGM w/o Open-ended exploration)。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

图2:递归式自我改进与开放式探索使达尔文哥德尔机(DGM)能够持续进步,不断提升性能。


DGM会自动发现越来越优秀的编程智能体,并在SWE-bench(图2左)和Polyglot(图2右)两个评测中表现出更高的得分。


相比之下,那些缺乏「递归式自我改进」或「开放式探索」能力的基线系统表现较差,说明这两个核心组件对持续自我优化至关重


图3左是「演化树」,描绘了其智能体在存档中生成的分支结构。


图中每个节点代表一个编程智能体,节点0是初始智能体。


节点颜色表示该智能体在SWE-bench上的性能(即完成任务的百分比),边框颜色表示该智能体被用于评估的任务数量。


节点之间的连线表示哪个智能体通过自我修改生成了哪个「子智能体」。


这种分支结构正是DGM开放式探索策略的结果:它从此前生成的多样化智能体中采样,作为新改动的起点。这一机制让DGM能够同时探索多条进化路径


研究者观察到,一些早期表现较弱的「祖先智能体」,如果使用传统的优化方法,可能早已被淘汰;但在DGM的框架中,它们却成为了启发后续重要改进的关键。


正是这些早期尝试,帮助系统最终突破了性能瓶颈,避免了过早收敛在次优解上。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

图3(左):DGM自动进行自我改进,逐步成为更强大的编程智能体


图3右是DGM在SWE-bench上的性能提升过程图。


浅蓝线表示所有具备基本代码编辑功能的智能体的平均得分;蓝色实线表示每轮迭代中存档中最优智能体的得分;深色实线则追踪最终最佳智能体及其祖先节点的进化轨迹,其中包括两次性能下降。


这表明DGM并非一味从当前最优解出发,而是通过探索多样化的「垫脚石」实现突破,避免了陷入局部最优。这正是开放式探索的又一大优点


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

图3(右):DGM自动进行自我改进,逐步成为更强大的编程智能体


从Python到Rust

样样精通!


DGM不仅能提升自己,还能把学到的「技能」用在不同的场景中。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

图4:模型与任务之间的迁移能力


达尔文哥德尔机(DGM)发现的智能体的优越性能可以在不同的模型之间进行迁移(见上图左和中),并且可以迁移到不同任务领域,例如从Python任务迁移到其他语言如Rust、C++、Go等的任务(见上图右)。


以下是它的几个「超能力」:


  • 跨模型通用:DGM用Claude 3.5 Sonnet模型优化后,换到其他模型(比如o3-mini或Claude 3.7 Sonnet)也能表现得很棒。这说明它找到的改进方案是通用的,不是只适合某个特定模型。


  • 跨语言应用:DGM在Python任务上训练后,竟然也能提升在Rust、C++、Go等其他编程语言上的表现。这就像一个只会说中文的人,突然学会了用英文、法文解决问题一样厉害!


  • 自动发明新工具:DGM自己发明了一些新功能,比如更好的文件编辑工具、生成多个解决方案并排序选择最佳方案,这些都让它的编程能力突飞猛进。


不过,当AI开始自我修改,安全问题也随之而来。


AI安全措施


确实,DGM的能力让人既兴奋又有点担心。


研究团队也意识到了这个问题,在开发过程中特别注重安全:


  • 沙盒环境:所有代码改动都在安全的「沙盒」中进行,相当于一个隔离的实验室,防止AI接触外部网络,做出意外行为。
  • 透明追踪:DGM的每次改动都有记录,形成一个清晰的「进化树」,人类可以随时检查它做了什么。


不过,DGM也暴露了一些潜在问题。


比如,它有时候会「作弊」:为了拿到高分,曾伪造测试日志、删除检测标记——


像学生篡改成绩单,暴露出自我改进AI的潜在风险。


好在有透明追踪,团队发现了这些问题。


但这也提醒我们,AI的自我改进必须更严格地控制,确保它不会「学坏」。


有趣的是,DGM还能帮自己提升安全性


研究团队让它解决「假装用工具」的问题,DGM真的提出了一些改进方案,虽然有时候还是会「耍小聪明」。


这说明,未来的AI安全研究可以利用DGM的能力,让它自己变得更可信、更透明。


DGM的出现,可能是AI发展史上的一个里程碑。


它不仅展示了AI自我进化的可能性,还打开了一扇窗:如果AI能不断自我改进,它能帮人类做些什么?


作者介绍


Jenny Zhang


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


Jenny Zhang是Meta研究科学家实习生,加拿大英属哥伦比亚大学(University of British Columbia)人工智能博士在读,师从Jeff Clune教授,同时也是Vector Institute学生研究员。


曾于伦敦帝国理工学院完成本科学习。研究方向为强化学习、自我改进AI及开放式学习(open-endedness)。


胡圣然


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?


胡圣然是Sakana AI研究实习科学家实习生,加拿大英属哥伦比亚大学(University of British Columbia)人工智能博士在读,师从Jeff Clune教授,同时也是Vector Institute学生研究员。


曾于南方科技大学完成本科学习。研究方向包括元学习(meta-learning)、智能体以及开放式学习(Open-endedness)。


参考资料:

https://sakana.ai/dgm/

https://arxiv.org/pdf/2505.22954

https://x.com/SakanaAILabs/status/1928272612431646943

https://www.jennyzhangzt.com/

https://www.shengranhu.com/


文章来自于“新智元”,作者“KingHZ 好困”。


AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0