# 热门搜索 #
搜索
GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星
7718点击    2024-04-03 14:40

用GPT-4打造的AI程序员,结果轻松追平Devin!


普林斯顿打造的开源SWE-agent,直接开箱即用——修复GitHub存储库中真实bug。


在25%的SWE-bench测试集上,它实现了与Devin相似的准确度—— 解决了12.29%的问题。



GitHub上线首日即斩获1.6K星。不少网友感叹,只需对GPT-4命令行工具进行简单设计,就可以让GPT-4部分能力大幅提升。


这恰好也印证了前几天吴恩达在演讲中的观点:


我认为AI Agent将在今年推动人工智能巨大进步,甚至可能超过下一代基础模型。


因为在吴恩达的研究中,GPT-3.5的Agent比GPT-4的表现还要好。



如今开源版Devin现世,已经有人开始RIP Devin了。



这就来看看这个开源版Devin长什么样。


开源版Devin来了


简单来说,SWE-agent是将语言模型(比如GPT-4)转变为软件工程agent,来Debug GitHub存储库中的一些问题。


他们设计了以 LM 为中心的命令和反馈格式来实现这些结果,使语言模型更容易浏览存储库、查看、编辑和执行代码文件。


用他们的说法,这叫做代理计算机接口(ACI),并构建SWE-agent存储库,以便轻松迭代ACI设计。



在SWE-agent上,团队主要设计了这些功能。


  • 创建文件查看和编辑器,可以打开、滚动和编辑文件。


结果发现每轮只显示100行时效果最佳。


  • 通过自动语法检查编辑特定行。


如果代码语法不正确,就不让编辑命令通过。当命令输出为空时会返回一条信息:”您的命令运行成功,但未产生任何输出”。


  • 编写和执行测试。


目前使用SWE-agent主要有两个步骤。


首先,推理。SWE-agent接收一个输入的GitHub问题,并返回一个试图修复该问题的拉取请求。


第二步是评估拉取请求,以验证它是否确实修复了问题。*(目前仅适用于SWE-bench 基准中的问题)。


英伟达科学家Jim Fan为其工作点赞:Great Work!揭开了炒作背后的简单本质。


只需对GPT-4命令行工具进行更好的手动设计,就能在SWEBenche上获得12.3的成绩。没有什么神奇之处,没有什么模型突破,也没有什么理由要极力炒作。
当GPT-5到来时,这些 “提示工程 2.0 “都将不再重要。



这不免让人想到前段时间Devin横空出世,如今也很少见人讨论它了。



不过也有人问为什么不用Claude 3来做Agent,主创团队表示:尝试了,但结果不太好。


在SWE-bench Lite(测试集的 10% 子集)上,它的成绩比GPT-4少了近 6%。而且它也慢得多。(GPT-4的响应时间是93秒)



除此之外,他还表示团队在logo设计上费了很大心思——


花了几个小时用DALL-3来设计。(Doge)



普林斯顿造


这是来自普林斯顿NLP小组打造的软件工程Agent。


据了解,John Yang和Carlos E. Jimenez是共同一作。


除此之外还有姚顺雨,目前是普林斯顿在读博士生,2015年毕业清华姚班。


他们的共同导师是Karthik Narasimhan,目前是普林斯顿NLP联合主任,跟陈丹琦是同事。



团队表示,他们将在4月10号发布论文。


虽然但是,最后还有一个灵魂拷问:

呃,但GPT-4不是开源的……



好了,你觉得这个开源的AI程序员怎么样呢?


参考链接:

[1]https://swe-agent.com/

[2]https://twitter.com/DrJimFan/status/1775173542470111475


文章来自微信公众号“量子位”,作者:量子位


关键词: GPT-4 , Agent , Devin , AI程序员 , AI编程
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md