大模型发展了这么久,AI 智能体们早就开始整顿职场了。
打开特工宇宙的教程,不需要太高的技术力,就能去搭建一个智能体,从写文章到按下发送键,都不用亲自动手,AI 打工我躺平 *٩(๑´ᵕ`)۶*
按照这个进度,很快每个同事都能拥有自己的专属智能体了。
想象一下,到那个时候:
不必要的拉通对齐会,只需要你的 Agent 和老板的 Agent 去开就行了!
组织活动不需要挨个去问去催了,让你的 Agent 和所有人的 Agent 对接!
采购的买方 Agent 可以自动联系多个卖方 Agent 比价,卖方 Agent 也可以同时支持成千上万个客户 Agent 进行咨询!
作为产品经理,可以召唤你的 Agent 拉上程序员小哥的 Agent,自动迭代,一边提需求一边写代码!
反观当前最受欢迎的智能体,更像是一个单打独斗的全能战士,在你设定的虚拟世界中执行单机任务。
在这个由你主宰的世界里,它只负责清理在你面前出现的敌人。
但是,真实的世界并不是单机任务,生活中,我们有朋友。职场中,我们有同事。
没有他们,谁来对齐颗粒度,拉齐水位,找好抓手,形成一套组合拳,聚焦垂直领域,打通底层逻辑,形成闭环矩阵呢?
当智能体的“单机任务”升级为“联机任务”,我的智能体能和同事们的智能体联手,自动完成多人任务吗?
带着这个问题,THUNLP 实验室群体智能组联合鹏城实验室开展了一项实验。
想要回答智能体能否“联机打怪”这个问题,还得回到真实的工作场景。
比如我和老板之间要开会,在本来只有两个人的对话中加两个智能体当中间商,还要让四个人之间的传话不出岔子,绕不开以下问题:
首先,智能体之间如何对齐?
智能体往往极为礼貌,如何让我的 Agent 和老板的 Agent 在开会的时候,不会互相输出废话文学?
这实际上要求双方的 Agent 都能清楚完成任务时自己需要掌握的信息有哪些,自己需要提供给对方的信息有哪些,以及自己需要向对方索取的信息有哪些。
其次,人与智能体之间如何对齐?
我的 Agent 代替我去开会,它如何得知我开会需要汇报什么内容?老板提出的问题,它又能否随机应变?
这实际上要求智能体能够理解人类的信息,包括沟通历史/文件/数据/偏好等等。
想明白这些核心问题之后,这个研究团队把自己的见解融入设计,从头搭建了一个多智能体系统 iAgents。
为了跳出单一用户,单一系统(系统内有多个智能体分工合作)的场景,iAgents 整体如同一个聊天网站,人类用户可以上传自己的文件,加好友,和其他人聊天,但也可以随时召唤 Agent,下达指令进行协作。
iAgents 的工作界面,很像即时通讯工具,不同的是,你可以随时将聊天消息转化为任务让 Agent 去完成,图中的 Alice 就让她的 Agent 与 Bob 的 Agent 一起讨论什么时候办 Party。
在 iAgents 工作的智能体就像你的替身使者,当替身觉醒之时:
1. 聊天双方的 Agent 会被初始化,并从各自人类用户的信息中构建智能体记忆
2. 双方的 Agent 会根据人类用户的协作目标,基于信息导航机制来自主沟通,交换信息
3. 最终 Agent 完成沟通,得出结论。
这些「替身」也将根据人类用户的步伐不断进化,随着你上传新文件、与其他用户有新交流,它们所能利用的信息库也将随之扩展。
iAgents 支持上传文件或者网址并为其建立索引,供 Agent 在协作时即时查询。
不难看出,整体流程中最重要的一环是信息导航机制,这是一种 Agent Reasoning 方法,直观来看:
1. 双方的 Agent 会根据协作目标列出信息清单,查看哪些信息是已知,哪些是未知;
2. 在每一轮沟通中,Agent 都会试图向对方的 Agent 求证未知的信息,并回答对方 Agent 的求证;
3. 每次从对方获取到信息之后,Agent 会把未知信息更新为已知,并将具体内容回填到信息清单上;
4. 最终双方结合各自的信息清单做一次一致性推理,得出最终结论。
目前 iAgents 已经在 GitHub 上开源,大家可以自己快速构建 iAgents 聊天网页,邀上好友一起尝试(没错,和任天堂游戏一样,门槛是得有好友)~
iAgents github:https://github.com/thinkwee/iagents
iAgents 官网:https://thinkwee.top/iagents/
此外,iAgents 还集成了诸多工具,支持本地模型部署和 RAG 调用。
系统已经齐备,按照实验的进度,下一步该检验 iAgents 的效果了,却发现这片领域太前沿,还没有对应的测试标准。
顺着工作的本质就是达成共识,而共识就是不对等的信息中找到最大公约数这个思路,iAgents 背后的研究团队还提出了首个信息不对称协作环境基础测试集——iBench。
为了测试智能体整合信息的能力,他们为 iBench 定制了两种任务类型:
1. 分布式捞针:与大海捞针不同,这项任务考验智能体在信息不对称的情况下如何搜寻信息碎片。关键线索被分割,分散于众多用户之手,智能体必须协同作战,拼凑完整的故事。
比如研究团队设计的人格捞针数据集,研究团队根据不同的经历、兴趣、职业等背景信息设置了许多角色,再提示大模型当编剧,生成与这些人格特征一致的连贯对话。
还有电视剧也特别适合这种任务。所以,iAgents 的研究团队还设计了老友记数据集,他们为《老友记》中的 140 个角色搭建了智能体,让他们经历了第一季 24 集所有的故事。智能体们要应对跨集的复杂问题,线索就隐藏在角色的对话里。
iBench 中老友记数据集的社交网络
最后当 Joey 和 Chandler 召唤他们的 Agent 来回答“什么是朋友?”这个问题时,两个 Agent 一番讨论,最终的结论是朋友应该互相理解、互相支持、共享经验——这也是 iAgents 的精神内核。
2. 分布式推理:他们把 LeetCode 的算法问题拆分成了碎片,问题的数据不会全部放出,而是分散在不同的地方。智能体需要像侦探一样,搜集这些分散的信息,协作解决难题。例如,要找出所有人都有空的时间,这就是一个典型的分布式推理任务。
这个实验的相关论文《Autonomous Agents for Collaborative Task under Information Asymmetry》已被机器学习顶会 NeurIPS 2024 接收。
共同第一作者为清华大学研究助理刘维和 MBZUAI 硕士生王晨曦(清华实习)。共同通讯作者为鹏城实验室研究员杨成和清华大学博士后钱忱。
该工作来自清华大学计算机系自然语言处理与社会人文计算实验室群体智能研究组。
论文链接:https://arxiv.org/abs/2406.14928
THUNLP 群体智能团队交互式综述网站:https://thinkwee.top/multiagent_ebook/
如果你觉得 iAgents 的像素画风有点眼熟,不要怀疑,这支团队就是去年推出爆火的开源项目,用 ChatDev 开了一家软件公司,CEO、CFO、员工都是 Agent 的那个 THUNLP 群体智能组。
没错!这也是让吴恩达点赞的智能体项目!
不过,高产如 THUNLP,他们的高质量新老工作也是多得数不过来:
感兴趣,就赶快跳转吧!👇
https://thinkwee.top/multiagent_ebook/#more-works
文章来自于微信公众号“特工宇宙”,作者“ 特工小布”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI