超越Devin！姚班带队，他们创大模型编程新世界纪录

9492点击 2024-06-03 15:34

超越Devin！SWEBench排行榜上迎来了新玩家——

StarShip CodeGen Agent，姚班带队初创公司OpenCSG出品，以23.67%的成绩获得全球第二名的成绩。

同时创造了非GPT-4o基模的最高纪录（SOTA）。

我们都知道，SWEBench评测高度贴近真实编程场景，难度极高，不仅要求模型能理解需求、协调多个函数/类甚至文件的变更，还要求模型与执行环境交互，处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。

在这种高难度的真实测试中，行业中最先进的GPT4和Devin，也仅能解决1.74%和13.86%的问题。

OpenCSG的这一成绩，标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

大模型编程，到底有多难？

2024年3月，首个AI软件工程师Devin的横空出世，引爆了整个技术界。虽然伴随着一系列争议，但Devin本身强大的创新能力和巨大的潜力，带给众多AI爱好者和从业者新的期待。

Devin不仅能够轻松解决编码任务，更可以自主完成软件开发的整个周期——从项目规划到部署，涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

超越Devin！姚班带队，他们创大模型编程新世界纪录

为什么Devin敢于挑战GPT4等基础模型的编程能力呢？

核心在于软件工程师并不只是编写代码，更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节，这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景，普林斯顿大学提出了SWEBench，这是一种量化评估端到端代码生成能力的工具。

GPT-4在SWEBench上的评分仅有1.74%，即使加上RAG技术，评分也不到3%，这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程，将SWEBench的解决率提升到了一个新高度。

3月份，Devin以独立解决13.86%的问题解决率高居榜首，这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域，这项记录被连续改写。

截止2024年4月底，最好的记录由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。

较为遗憾的是，相比于基础模型榜单上中国公司的“百花齐放”，这项高难度的挑战中国公司鲜少参与，直到这一次OpenCSG改写了这一纪录。

来自中国创业公司

SWEBench最新评测结果更新，OpenCSG跃居榜单第二名，该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率，这一成绩不仅超过了Devin和Amazon的成绩。

OpenCSG（开放传神）成立仅一年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

超越Devin！姚班带队，他们创大模型编程新世界纪录

团队在开源及大模型复合经验十分深厚——

CEO陈冉是开源软件领域的知名企业家，曾成功打造过多家开源领域的商业公司。

CTO王伟来自清华05级姚班，在人工智能领域有多年研发经验。

公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。

那么这样一支团队是如何打造出新的记录的呢？

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术，而OpenCSG则选择了专注的方向：致力于编程Agent的创新开发和大型模型算法的深度优化。

Agent层面：不同于LLM+RAG或者通用Agent框架，OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计：将研发各个阶段（需求理解、代码检索、编程计划、编写代码、循环验证等）通过LLM Agent实现，并结合软件工程方法，例如AST语法分析、依赖检索等进行深度优化的方式，在各个环节精益求精，最终整合实现了更高精度的代码生成。

算法层面：针对代码版本变更引起的API冲突等典型问题，OpenCSG提出了自适应教师模式，通过教师模型分析代码版本变更记录，生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进，显著优于当前的RAG模式，尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式，让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

“StarShip就是各种家电电器”

如果说CodeGen Agent的真实评测是牛刀小试，那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位，OpenCSG CEO陈冉表示：

StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体（Agent）组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员，目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具，我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工，全面覆盖需求、设计、编码、测试和运维各个环节。

CTO王伟则表示这条路径充满挑战但非常有趣，“从第一性原理来看，大模型对于生产力的提升已经不是’是’或者’否’的问题，而是何时、何地、何种形态的问题，StarShip正是我们尝试给出的一个回答。”

超越Devin！姚班带队，他们创大模型编程新世界纪录

除StarShip之外，OpenCSG团队还相当高产：CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等，这些产品定位精准，在业内颇受好评。

这些产品的快速推出与迭代，既满足了市场需求，同时也为了一个共同的目标：让大模型赋能每一个企业每一个人。

让大模型赋能每个企业、每个人，就需要让大模型变成水和电一样。如果说大模型是电能，那么CSGHub是电力网络，StarShip则是各种各样的家电电器，最终赋能到千家万户。

OpenCSG的理念是开源开放，作为一家坚持以开源为核心的公司，不仅实现了模型开源、代码开源，甚至将平台开源。

CTO王伟这样总结，我们是一家年轻的公司，受益于开源，才能在较短的时间做出一些成果，同时也会全面回馈开源社区，这是开源社区的基本原则。除此之外，我非常认同Sam Altman的说法，开源只是一种模式，比模式更重要的是产品价值。

“Benchmark本身只是一个数字，随着GPT4-o的推出，SWEBench的测试成绩预计将会很快超过30%，乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值：随着模型能力和工程技术的提升，数字员工将会从量变引发质变，从能用到好用，在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化，从公司到个人，我们都要为此做好准备。”

文章来源于“凹非寺”，作者“允中”

超越Devin！姚班带队，他们创大模型编程新世界纪录

关键词: Devin , 大模型 , GPT-4o , GPT-4 , SWEBench

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner