北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库
7460点击    2026-05-22 09:27

投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。


随着大语言模型(LLM)在代码生成领域不断突破,AI 正在从“代码补全工具”逐步迈向真正的“自动化软件工程师”。然而,一个核心问题始终没有被真正解决:


AI 能否像人类开发者一样,从零开始独立构建完整的软件仓库(Repository)?


近日,北京大学与百度联合提出了全新的代码生成基准——RepoZero,首次为“从零生成完整代码仓库”提供了可验证、可扩展、自动化的评测框架,为 AI 软件工程研究打开了新的方向。


主页:

https://repozero.osslab-pku.org/

代码:

https://github.com/JesseZZZZZ/RepoZero

论文:

https://arxiv.org/abs/2605.07122


从“写函数”到“造系统”


过去的大多数代码评测任务,例如 HumanEval、SWE-bench 等,主要关注:


  • 单个函数生成
  • Bug 修复
  • 小规模仓库编辑


而真实的软件开发远不止如此。


一个完整的软件仓库往往涉及:


  • 多文件协作
  • 模块依赖
  • API 设计
  • 长程逻辑一致性
  • 自动测试与调试


北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库


RepoZero 关注的正是这一更具挑战性的目标:


让 AI 在没有现成代码的情况下,仅依据 API 描述,重新实现整个代码仓库。


这意味着,AI 不再只是“补代码”,而是真正参与“软件构建”。


RepoZero:首个可验证的仓库级生成基准


RepoZero 的核心创新,在于提出了“仓库复现(Repository Reproduction)”任务。


系统会提供:


  • API 功能说明
  • 少量示例测试
  • 输入输出规范


随后,AI 需要:


  • 从零生成完整项目结构
  • 编写多个模块代码
  • 保持跨文件逻辑一致
  • 最终通过隐藏测试集验证


与传统依赖人工评分或 LLM 打分不同,RepoZero 使用真实执行结果进行严格验证:


只有生成仓库的输出与原始仓库完全一致,才算成功。


这一机制显著提升了评测的客观性与可信度。


北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库


双语言跨域挑战:防止“背答案”


为了避免模型直接记忆 GitHub 代码,RepoZero 引入了极具挑战性的“跨语言生成”机制。


目前包含两个核心任务:


Py2JS


将 Python 仓库重新实现为 JavaScript


C2Rust


将 C/C++ 仓库重新实现为 Rust


同时,系统严格禁止:


  • 调用原语言运行时
  • 使用桥接工具
  • 引入外部依赖库


这意味着模型必须真正理解算法与系统逻辑,而不是简单“复制粘贴”。


北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库


ACE:让 AI 学会“自己测试自己”


除了基准本身,论文还提出了一套重要框架:Agentic Code-Test Evolution(ACE)


ACE 的核心思想是:


AI 不仅写代码,还要自己生成测试、运行测试、分析错误、并持续修复。


整个流程形成: “代码生成 → 自动测试 → 错误反馈 → 代码修复” 的闭环。


实验表明:


这也意味着:


  • 加入 ACE 后,模型性能显著提升
  • 多轮“代码—测试”迭代可明显提高最终通过率
  • 自验证能力正在成为未来 AI 编程 Agent 的关键能力


这也意味着:未来真正强大的 AI 程序员,不只是“会写代码”,而是“会调试、会验证、会自我修正”。


当前最强模型,依然远未达到人类水平


北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库


RepoZero 的实验结果也揭示了一个重要现实:


即便是当前最先进的大模型与 Agent 框架,在完整仓库生成任务上的成功率仍然有限。


在最困难任务中:


  • 很多模型通过率仅为 20%~40%
  • 即使顶级模型 Claude-4.6-Sonnet,也远未达到可靠软件工程水平


主要失败原因包括:


  • 长上下文遗忘
  • 模块协作错误
  • 输出不一致
  • 测试覆盖不足


北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库


这表明:“真正的软件工程智能”仍然是 AI 领域尚未攻克的重要难题。


推动下一代 AI 软件工程研究


RepoZero 的意义不仅在于一个新 benchmark,更在于它重新定义了:“AI 软件工程能力”该如何评估。


它同时具备:


  • 自动化
  • 可扩展
  • 可复现
  • 可严格验证
  • 抗数据泄漏


等关键特性。


论文作者认为,未来 AI 编程研究的重要方向包括:


  • 仓库级长程推理
  • 自动测试生成
  • 自验证能力
  • 多文件协同生成
  • 软件架构一致性


RepoZero 为这些研究提供了统一而可靠的实验平台。


结语


从代码补全,到自动修 Bug,再到从零构建完整软件仓库,AI 正在快速逼近真正的软件工程能力。


而 RepoZero 的提出,意味着:


AI Coding 正正式进入“Repository-Level Generation”时代。


未来,能够“自主开发完整软件系统”的 AI Agent,也许将不再只是科幻设想。


文章来自于"夕小瑶科技说",作者 "北京大学、百度"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md