MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26
6114点击    2026-04-16 16:07

大模型写代码这件事,越来越像「既能写片段,又离真实工程差一截」。


HumanEval、SWE-Bench、ClassEval……榜单很多,但多数仍在考函数、类,或在既有仓库里打补丁。


真正让人头疼的0到1,往往是读完一份需求文档,把一整套可部署的代码仓库搭出来:目录怎么拆、依赖怎么对齐、多个文件之间的接口与错误处理怎么一致。


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26


微软亚洲研究院(MSRA)的最近这项工作,把考点直接搬到了这条链路上。论文已被ACL 2026高分录用。它不设花哨的「全自动科研」叙事,而是把一个更清晰的问题说透:只给你README式的需求说明,AI能不能从零生成完整仓库,并且过黑盒测试、能部署。


这就是RepoGenesis:首个面向多语言、仓库级、端到端Web微服务生成的基准。


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26


和现有基准比,RepoGenesis的差异可以用一张「能力矩阵」来理解:不止于函数级或改代码库,而是Repo-Level、NL2Repo、并且锁定微服务场景;语言上同时覆盖Python与Java。论文里的对比表把这条边界画得很清楚。


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26

 RepoGenesis与主流代码生成基准对比表


把「工程上真实的一单活」拆成可测的流水线


RepoGenesis的输入非常贴近实际:一份写清功能、API、模式、约束的需求文档README.md。模型或Agent的输出则是一整套仓库:源码、配置、依赖声明,最后要扛住黑盒测试。


数据规模上,论文给出106个仓库(60 Python、46 Java),横跨18个领域、11套框架,共1258个API、2335条测试。评测子集Verified为30个仓库(6个来自可部署的真·GitHub项目+24个专家监督构造),并另有76个仓库构成Train子集用于训练与轨迹蒸馏,二者分工在文中写得很明确,避免「既当教练又当裁判」。


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26

 Benchmark构造与difficulty分布或数据集统计表骨架


测试怎么信?他们用了很「学术会议」的一套review-rebuttal质控:多模型盲评、分歧大时人工Area Chair介入、迭代refined,直到达到约定门槛;Verified部分还报告了评分者可重复性从近乎随机提升到Krippendorff’s α≈0.69这类量化结果。大意只有一个:这不是用几条手写样例糊弄一下,而是尽量让测试本身站得住。


评测不止「过没过」:三根柱子一起看


如果只报准确率,会掩盖「写得像那么回事,但起不来服务」这类工程常态。RepoGenesis用三个维度同时打分明细:


1. Pass@1:功能是否正确,能否扛住黑盒测试(最硬)


2. API Coverage(AC):需求里的接口,实现覆盖了多少。


3. Deployment Success Rate(DSR):生成物能不能真的部署跑起来。


论文对DeepCode、MetaGPT、MS-Agent、Qwen-Agent等开源Agent,以及Antigravity、Cursor、Copilot等商业IDE做了一轮系统评测(多模型配置,主文侧重GPT-5.1、Claude-Sonnet-4.5、Qwen3-30B等组合,细节见附录)


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26

 各系统能力雷达


结果里有一组反差很强的数字,几乎可以直接当导语用:接口覆盖率可以冲到很高(摘要中AC最高约73.91%);部署成功率在部分配置下可以非常亮眼(摘要写DSR最高可达100%,与附录中部分IDE+模型组合一致)。但即便如此,最强系统的Pass@1仍然在Python上约23.67%、Java上约21.45%(Copilot+Claude主表结果)


翻译成人话:能写、能覆盖接口、甚至能先跑起来,并不等于逻辑全对。架构是否自洽、依赖是否严实、跨文件是否对齐,仍然是瓶颈。


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26


MSRA首测AI从零建仓库:能写、能跑,但不一定对丨ACL'26

 Pass@1/DSR-AC主表


失败长什么样?论文把失败病例粗分成三类,大致占比是:跨文件一致性问题合计约50.2%架构连贯性约26.0%依赖管理约23.8%。Java里依赖相关失败占比更高(表中44.7%),这也和语言与构建链路的「硬」是一致的。


另一条线:数据能不能把模型「喂上去」?


团队在MS-Agent之上扩展了面向微服务仓库生成的GenesisAgent,用成功轨迹蒸馏出16,396条高质量指令微调样本,在Qwen3-8B上微调得到GenesisAgent-8B。在Verified上,它与GPT-5 mini多指标互有往来、整体同梯队(文中Table给出DSR、AC、Pass@1的并列对比)。这至少说明一件事:这份基准是值得继续挖的训练信号,而不是一次性榜单。


当然,边界也很坦诚


RepoGenesis主要覆盖REST式Web微服务,语言集中在Python/Java;输入是结构化较好的README,真实世界里「需求含糊、反复改稿」还没完全模拟;测评以过测为主,可读性、长期可维护性、工程规范仍未系统量化。这些在论文Limitations里都写得直白。


结语


RepoGenesis的意义,未必是把代码生成再吹成一个全能故事,而是把行业里大家每天在做的那一步:从文档到仓库,变成可复现、可对比、可改进的考场。当ACL 2026给这类「贴工程」的硬评测一页版面时,讨论或许会少一些口号,多一些能落地的下一代模型与Agent。


论文标题:

RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository

论文链接:

https://arxiv.org/abs/2601.13943

代码与榜单(作者公开渠道):

https://github.com/pzy2000/RepoGenesis/

公开榜(持续汇总开源Agent与商用IDE):

http://23.83.232.182:4090/


文章来自于"量子位",作者 "微软DKI团队"。

关键词: AI , 模型训练 , MSRA , AI榜单
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner