优秀基因的演化和重组,是生命体适应环境、永葆活力的自然法则。AI智能体能否像有机生命一样,实现适应任务环境的高效自我演化?
大模型智能体的快速发展在数学、医疗、个人助手等各领域产生了突破性应用,但依赖专家知识的手工设计方法制约了它们的任务自适应能力。如何实现AI智能体针对不同任务场景的高速自我演进一直是一个棘手的难题。
图1 AI智能体的自适应演进
为了解决这一问题,清华大学数据科学与智能实验室提出了「AgentSquare-智能体魔方」,推出了模块化的智能体系统设计与搜索新范式。
标准化的模块接口抽象,使得任务规划、常识推理、工具使用等经典智能体模块的重组如同「拧魔方」一般轻松。同时,演化产生的新颖模块也可被直接组装应用于其他智能体系统。
在网页、具身、工具、游戏等不同场景的六个基准数据集上测试,显示AgentSquare均能高效发现显著优于已知人类设计的新颖智能体系统。「AgentSquare-智能体魔方」开启了模块化智能体设计搜索的「变形金刚」时代。
项目代码、模块库已进行全面开源,简洁指令便可开启AI智能体的高速进化。
论文标题:AgentSquare: Automatic LLM Agent Search In Modular Design Space
论文地址:https://arxiv.org/abs/2410.06153
项目地址:https://tsinghua-fib-lab.github.io/AgentSquare_website/
代码仓库:https://github.com/tsinghua-fib-lab/AgentSquare
AgentSquare的关键创新来自于模块化设计空间的提出。研究团队系统梳理了AI顶会的大量智能体研究,提炼出了16种经典智能体设计,并将其归纳为一个模块化智能体设计空间。
在这个设计框架中,LLM智能体被简化为四个核心模块有机协作:任务规划(Planning)、常识推理(Reasoning)、工具使用(Tool Use)和记忆学习(Memory)。
研究团队还对不同代码框架进行了标准化整合,抽象出了标准化的模块接口,让每个模块可以像拧魔方一样轻松替换。这样,AgentSquare既能支持现有经典设计的组合创新,也能加速新智能体模块的高效探索。
图2 模块化设计空间(左)与标准IO接口(右)
这四个核心模块各有分工:
基于这四大模块,研究团队设计了一个智能体工作流程模板(Agentic Workflow)。
如图2所示,智能体会先用任务规划模块将复杂任务指令分解成小步骤,逐步由常识推理模块执行子任务。
当遇到知识盲区时,智能体就会借助工具使用模块调用外部工具,同时记忆学习模块保存相关经验,为后续任务提供支持。
最终,子任务推理结果会转化为实际行动,并在环境反馈的帮助下不断优化计划,直到任务完成或达到尝试上限为止。
基于模块化设计空间,AgentSquare带来了一个新的研究课题——模块化智能体搜索(MoLAS)。
MoLAS的主要技术问题在于(1)如何快速找到适应任务的最优模块组合(2)如何发现新颖的、更优的模块设计。解决这一问题面临着组合搜索空间庞大、新模块设计缺乏指引以及智能体评测成本高昂的三大挑战。
图3 模块化智能体搜索问题(MoLAS)
AgentSquare演化搜索——智能体「变形金刚」时代已来
图4 智能体设计的「变形金刚」时代
为了应对MoLAS的挑战,研究团队推出了AgentSquare演化搜索算法,包含三大核心功能:模块重组、模块进化和代理评测模型。
图5 AgentSquare框架——通过模块进化和重组实现AI智能体高效自适应演化
模块重组(Module Recombination):组合经典设计,优化顶层架构
考虑到智能体广阔的设计空间,仅靠提示词(或代码)改写的简单策略只能在原有设计之上做微小调整,难以实现高效搜索。
为此,AgentSquare引入了LLM作为「重组提议者」 (Recombination proposer LLM),基于对性能评测经验的深入分析,提出重组高性能模块的智能体设计方案,模拟生命体重组优秀基因的过程。
模块重组功能通过对智能体顶层架构的大幅优化探索,实现远超底层「提示词改写」的优化演进速度。
模块进化(Module Evolution):积累底层变异,探索新颖设计
仅通过重组现有模块并不足够,AgentSquare还引入了模块进化功能,以便在代码层级探索全新模块的可能。
该功能引入一个作为代码编程者的LLM(Module-programming LLM)结合设计的模块进化元提示(Evolutionary meta-prompt)来探索新的模块设计,指导智能体生成新模块的设计方案。
通过模块重组与进化,AgentSquare大幅拓展了设计空间的搜索范围,并为智能体引入了更多创新性设计。
代理评测模型(Surrogate Model):节省评测成本,加快优化搜索
在自动化智能体搜索过程中,一个重要挑战是高昂的评测成本。
例如,在ALFWorld评测数据集上,评测一个GPT-4驱动的「思维链」智能体需耗费近60美元。为了解决这一问题,AgentSquare引入了一个代理评测模型(Surrogate Model)来预测智能体性能。
这个模型通过召回并对比相似智能体的历史评测数据,快速预测新智能体的表现,从而筛选出性能较差的提案。实验表明,代理模型的预测效果与实际评测接近,R-Square达到了0.95,且其token开销仅为真实评测的0.025%
图6 「代理评测模型」有效性验证
为验证AgentSquare的效果,研究团队在四类智能体任务——网页(Web)、具身(Embodied)、工具(Tool)和游戏(Game)——的六个基准测试上进行了大规模评测。结果显示,AgentSquare发现的智能体在性能上全面超越了人类设计的最优方案,平均性能提升达17.2%
研究还表明,一些简单的模块搜索方法(如随机组合和贝叶斯优化)也能获得优异性能,这进一步证明了模块化设计在智能体开发中的重要性。
表1 与人工设计、模块搜索及提示搜索基线的性能对比
性能和成本的联合分析显示,AgentSquare不仅提高了智能体的表现,还有效控制了推理成本。通过设计reward函数(如将token开销纳入搜索目标),AgentSquare能够在性能和成本之间灵活权衡。
图7 Webshop任务中各智能体性能与API成本的关系
此外,研究团队对搜索过程进行了详细分析,发现其他方法很快遇到性能瓶颈,而AgentSquare表现出更高效的搜索路径和更低的评测成本。
图8 AgentSquare在Alfworld和Webshop任务中的搜索轨迹
目前,AgentSquare在各项任务中生成的新模块均已开源,方便后续研究者复用和优化。AgentSquare不仅能灵活识别最适合任务需求的模块组合,还能有效整合已有和创新模块。
如下图所示,在具身任务ALFWorld中,AgentSquare设计了带有时序依赖的planning模块来优化行动规划,同时为reasoning模块加入多链路推理和反思机制,大幅提升了智能体的决策准确性,有效捕捉到任务需求的关键点。
图9 AgentSquare搜索在各任务中发现的新模块及性能最好的模块组合
AgentSquare通过标准化的模块化设计空间和搜索框架,为大模型智能体的研究带来了系统化和标准化的重要突破。
更为关键的是,AgentSquare作为一个开源项目,将为智能体研究提供一个汇集社区智慧的平台,研究者手工设计或搜索发现的新颖智能体设计可以作为新模块被维护在开源代码库中,大幅降低经典设计在广泛任务上的应用门槛,助力智能体技术在更多应用场景中的创新与发展
参考资料:
https://arxiv.org/abs/2410.06153
https://github.com/tsinghua-fib-lab/AgentSquare
文章来自于微信公众号“新智元”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0