龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一
6749点击    2026-03-24 10:00

UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。


近日,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,可以全自动构建AI模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及该校副教授Pengtao Xie。


开发一个高性能AI模型非常耗时费力,工程师需要反复设计模型、写代码实现模型、构建训练流水线、执行超参数搜索,并根据实验结果对模型进行迭代优化。


这一过程对专业知识的依赖程度极高,人力成本也居高不下,非常耗费时间。


为了解决这一问题,UCSD的研究团队开发了AIBuildAI智能体,充当虚拟的AI工程师或AI科学家,全自动构建AI模型。用户无需编程,只需要用自然语言对任务进行描述,AIBuildAI自动设计模型,写代码实现模型,训练模型,调节超参数,评估模型性能,并根据实验结果对模型进行迭代优化。


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一

项目地址:https://github.com/aibuildai/AI-Build-AI

论文链接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench测评结果:https://github.com/openai/mle-bench/pull/126


AIBuildAI在OpenAI MLE-Bench基准测试的75个任务上以63.1%的获奖率位居榜首,其表现可媲美经验丰富的AI工程师,实现了从任务描述到可部署模型的端到端自动化。


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一


AIBuildAI的设计灵感来源于真实的AI研究团队的工作流程。在典型的AI项目中,技术负责人统筹多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人定期评审结果、分配资源。AIBuildAI将这一工作流抽象为一个多智能体搜索过程:将整个开发周期分解为多个专职智能体协作执行,并通过集中化的管理器进行统一调度。


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一


技术核心


管理智能体(Manager Agent)


扮演项目运行负责人的角色,全程不直接写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出下一步决策。他在两种模式之间切换:协调模式下决定下一步应该调用哪一个子智能体;筛选模式下依据训练信号保留有潜力的候选方案并终止无效方案来节约时间以及计算成本,并在进展停滞时触发修订或者终止。


研究员智能体(Designer Agent)


负责想方案和改方案两项核心任务。在设计模式下,他直接探索数据集特征,提出多个差异化、可行性强的建模计划;在修订模式下,他仔细诊断失败原因(过拟合、欠拟合、收敛问题或者数据异常),并提出具体的改进方案供编码智能体重新实现。


编码智能体(Coder Agent)


将设计方案转化为可运行的训练与推理流水线。编码智能体的目标是确保代码正确完整,而非追求最终性能。他会在写完代码后执行一次短时验证运行以确保流水线可以端到端运行,随后将完整训练交由调优器处理。


调优器智能体(Tuner Agent)


接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。


系统设计


AIBuildAI在系统层面还具备三项关键特征:


  • 并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。


  • 可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。


  • 安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。


实验结果


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一


AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。


龙虾也能养龙虾!UCSD发布AIBuildAI智能体,MLE-Bench榜单第一


上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。


AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。


总结


AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。


不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。


AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。


参考资料:

https://github.com/aibuildai/AI-Build-AI


文章来自于“新智元”,作者 “LRST”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md