大模型的下一个突破方向是什么?斯坦福大学教授吴恩达的答案是AI智能体工作流。
在今年4月的一次演讲中,吴恩提到多个智能体一起工作,分配任务并讨论和辩论想法,能够提出比单个智能体更好的解决方案。在他的测试中,基于GPT-3.5构建的智能体工作流,表现超过了GPT-4。
什么是智能体工作流?大多数人使用大模型的方式是输入指令——生成答案,这是我们使用工具,来线性完成某项任务的方式。
而智能体协作的工作流是这样的:让智能体A进行调研,写出文章大纲,智能体B写初稿,智能体阅读初稿并进行修改,让智能体C配图,让智能体D做翻译...这一过程还可以持续下去,直到获得满意的结果。
通过多智能体协作,可以把一个复杂的任务进行拆解,在流程中加入人对于流程的规划和定义。从而减少对指令和模型推理能力的依赖,提高大模型处理复杂任务的能力和准确性。
我们可以把智能体之间的协作和人类的工作方式进行类比,比如在一家公司中,每个人都有自己的工作职责,每个人的技能点也有所不同,但所有人最终都是要实现共同的利益或解决共同的问题。这种分工和协作的能力,是人类智能的重要表现之一,也是人类社会的基础。
这种智能体的工作流,每一个步骤都借助模型的不同智能体的能力和工具来完成,每一步的智能体和工具可能都不一样,最终把这一系列的步骤串联起来,如同一个生产的流水线,形成一条端到端的工作流,源源不断地产生价值。
在智能体方面,OpenAI已经用GPTs和Assistant API率先进行了布局,并且前几天还免费向所有用户开放了GPTs的使用,不过这和国内的绝大多数用户没什么关系。
事实上,在国内也有不输GPTS的智能体平台,比如性能比肩GPT-4的智谱清言,在今年1月就上线了个性化智能体功能GLMs,无论有没有开发经验,都能使用文字指令创建智能体,它的门槛有多低呢,在今天智谱的Openday上,一位九岁的开发者许萌萌闪亮登场,他不仅用清言的智能体开发了一款侦探游戏,还和清言合作写了一本书《AI少年----火星生存大挑战》,并且得到了电子工业出版社的出版。
这本书写的是火星主题的密室逃脱游戏,这位可能是年龄最小的AI开发者说,从框架情节,到寻求数据支持和修改润色,都有智谱清言的功劳。智谱也为这位小粉丝送上了一份礼物:刚刚入职智谱的数字员工罗永浩来帮《AI少年----火星生存大挑战》带货了。据官方介绍,AI老罗也将登录智谱清言平台开放给公众,看来以后大家在闲鱼上卖二手,也可以让老罗来吆喝吆喝了。
除了辅助创作,智能体在生产力方面也大有所用。为了方便用户使用智能体构建自己的工作流,智谱清言还推出了一项非常实用的创新功能“清流”,用户在清言对话框或任意一个智能体内,只需使用“@”功能,就可以召唤不同的专用智能体,实现在一个对话内将不同的智能体串联在一起,而免去了在各个智能体的窗口之间来回切换。统一到同一个对话内之后,智能体也能够更完整地理解上下文信息,让输出结果更精准。
这些智能体除了可以自由组合,还具备模型自带的联网、绘图、代码等能力,支持接入外部工具和知识库,完成更复杂的任务,形成个性化工作流。
依托于GLM大模型,智谱清言近期还从技术和工程上对智能体的协作进行了针对性的优化,不仅可以支持更多轮的工作流,智能体在工作流中完成任务的效果也得到了提升。
硅星人也在第一时间上手体验,让我们来看看大佬们都看好都智能体工作流,落到实操中是否值得期待。
实测“清流flow”:多智能体协作实现1+1>2
想要使用智谱清言的智能体,可以在聊天框直接@召唤,类似在工作群聊中@你的同事分配工作任务一样,而且你不必考虑它的档期和工作状态,智能体是来者不拒的。
不过每次@智能体只能完成单一的任务,想要形成工作流,需要把不同的智能体组合起来,就像组织一个工作小组一样。首先来看看如何通过清流flow构建工作流,让小白也能搞定英文财经新闻的撰写。
财经新闻撰写工作流
信息搜集 + 思维导图 + 数据分析 + 报告撰写 +新闻改写
智能体是来帮我们干活的,所以需求越明确越好。对于财经记者来说,主要进行经济、金融、市场等相关领域的新闻报道和分析,他们会密切关注众多市场主体,从庞杂的信息中筛选出有价值的部分传达给读者。清流flow的这一套财经新闻工作流,极大的提高了工作的效率,让我们来看看智能体是如何协作的。
最近巴菲特公司股价闪崩让我们见证了历史,针对这类财经事件的解读,通常有这么几个流程:获取并梳理信息->形成逻辑框架->进行数据分析->文章撰写->编辑发布等。这些繁琐的流程,我们完全可以交给智能体合作完成,而用户只需要进行整体把控。
流程一:查阅总结相关信息
我们直接输入指令:“我想知道近期巴菲特公司股价闪崩的原因和相关影响,请搜集互联网公开信息,并调阅纽交所官方信息”,ChatGLM的搜索能力已经足够满足这个需求,因此在这一步不需要调用智能助理。
ChatGLM联网进行了快速检索,对相关要点进行了总结,并附上了参考文章的相关链接,方便记者进行进一步的查阅以及核实。
流程二:进行逻辑分析
在浏览了相关信息之后,我们需要对相关素材进行进一步的梳理,思维导图是一个很好的工具。我们可以@思维导图 MindMap,输入指令“请形成有逻辑、进行具体分析的思维导图”。
智能体思维导图 MindMap 先是整理了文字内容。
然后调用工具生成了完整的思维导图。
流程三:分析数据信息
我们引入伯克希尔哈撒韦近期股价变动的解读,作为背景信息。先让ChatGLM查阅相关信息。
再@数据科学家,从数据的角度进行分析。输入指令:“对伯克希尔哈撒韦的股价变动相关数据进行分析,给出数据角度的洞见”。
流程四:撰写调研报告
有了框架和数据观点,下一步我们@调研报告撰写大师,结合以上所有信息进行进一步的综合调研分析。输入指令:“把以上所有内容润色为一篇1000字的调研报告”。
智能体根据我们的诉求生成了一份调研报告,在这里如果对内容有所不满,还可以让智能体继续调整优化。
流程五:新闻撰写与翻译
智谱清言除了精准的中文理解能力,在跨语言理解上的表现也很出色,我们@英文新闻改写者,撰写一篇英文新闻报道,输入指令:“以伯克希尔哈撒韦近期股价变动为主题,写一篇英文财经新闻报道,要承接中国媒体的视角和价值”。
到这一步,这整套财经新闻撰写工作流就完成了,对于基础的财经新闻,完全可以用智能体的工作流来帮我们提高效率,而这只是清流flow组建智能体工作流的其中一个用法。
智能体助理天团,任意挑选组合
在智谱清言的智能体中心,用户可以用自然语言定义自己的智能体角色、能力和工作流程,也可以根据需求描述一键生成智能体。还支持上传自己知识库文件,成为专属私人助理,同时,具备开发能力的用户还可以接入自定义API,让智能体调用外部API来实现复杂功能。
在智能体中心,除了官方提供的智能体之外,还可以找到各种类型的由用户创建提交的智能体,覆盖了多种功能和场景。这些智能体结合了不同的模型能力,仿佛是无数个不同的专家,有的侧重于处理文字,有的则擅长画图或是图表的制作,用户可以根据自己的特定场景和需求,挑选合适的智能体,开箱即用。硅星人在使用中也遇到了不少比较有意思、有用的智能体,在这里也一并推荐给大家。
表情包斗图启动!
据说当代年轻人最大的虚拟资产就是手机里的表情包,斗图更是各个群聊里喜闻乐见的环节,智能体能成为我们斗图的助手吗?当然可以,智能体“表情包斗图启动!”就是为此而生,最近火爆社交网络的“吗喽文学”它也替你掌握了。
吸渣体质识别
在感情路上走的不太顺利的同学,可能会怀疑自己是不是“吸渣体质”,“吸渣体质识别”智能体是一台专业的吸渣体质指数识别仪,可以给你定位吸渣体质指数,同时帮助你分析自身情感状态,避开吸渣陷阱。
大众点评文案
相信大家在外出就餐的时候,经常遇到商家“花式”索要好评,如果体验尚可,一般也会给个好评,只不过写的时候还得想想怎么夸,有时候还有字数要求。遇到这种情况我们就可以召唤“大众点评文案”智能体,它可以帮助一键生成好评文案,再也不用担心词穷的尴尬。
无限流续写
无限流小说成为了如今网文的热门题材,一本小说包含多个世界的副本,体现多个世界的差异,可以让读者一口气看个过瘾。有了“无限流续写 ”智能体,我们甚至可以尝试自己写这样的小说,而不用担心灵感不够,或者文笔不够好,在续写的每一步,智能体都会进行相应的引导。
生产力方面,“思维导图助手”在前面的案例中已经展示,它可以根据用户的主题一键生成Markdown格式思维导图,通过图形化的方式将信息层次化、结构化地呈现。而“复杂流程图”则可以用五秒钟做一张流程图,主打的就是一个省时省力,以“是否去游泳”为例,效果是这样的:
除了单独使用,我们还可以将不同的智能体任意组合搭配,像上文介绍的财经新闻场景一样,形成工作流,来解决更复杂的问题,就像是坐拥了海量可以随意调配的小能手和智囊团。
比如,如果你要做一个AI教育类APP,需要写一份产品方案。可以召唤“顶级产品经理”出一份PRD,让ChatGLM把得到的PRD转为框架图,最后通过“产品规划师” 进一步细化,生成一个详细方案,并根据功能方案生成清晰的框架图。
要写论文的同学,则可以先使用“学术搜索”确定论文选题方向,再召唤“论文写作专家”和“论文改写精灵”分别进行撰写可以编辑,如果有需要,还可以用“翻译专家”进行翻译。中途的每一个环节,都可以根据具体需求进行调整和优化。当然,最后还是需要进行人工审核和修改才能确保论文的质量。
顶级的模型能力+智能体工作流=效率革命
其实无论是学界还是产业界,大家已经围绕智能体探索了很久,只不过在大语言模型兴起之前,智能体的研究主要用来扮演策略函,解决特定场景下的问题,随着大型模型的发布,智能体领域开始迎来了加速的发展,智能体也被认为是实现AGI的一种方案,在技术圈达成了一定的共识。
最近也出现了一些有意思的探索,比如游戏和智能体结合,有团队用基于大语言模型的智能体玩“狼人杀”,主要用来研究主流LLM模型能否模拟人类玩家进行游戏。
不过智能体要融入我们的日常,还是有很长的路要走。和人一样,智能体也需要具备持续自我进化的能力,这就离不开模型能力的不断增强。如果模型能力没跟上,智能体充其量只能称之为玩具,而派不上多大用场。在这一点就不得不提智谱作为国内头部的大模型公司,在模型能力的提升上一直走在前列。
正如人类最重要的进化是学会了使用工具,对工具的使用也是AI智能体“进化”的关键一环。
GLM-4的All Tools功能,让大模型能够理解用户的意图,能够结合上下文自动选择文生图、代码解释器、网页浏览等多种工具完成任务执行。智能体商店还内置了常见的工具API,也支持用户自建API来调用外部工具,这就像是可以给智能体加上不同的“外挂”,赋予了智能体更丰富的行动能力。
除了“外挂”工具,还可以给智能体“外挂”大脑,清言的智能体支持1亿字的知识库,无论文字、表格、音频还是网页链接,都可以一键上传导入。这意味着清言的智能体就像是永远不知疲倦的学霸,不仅能学会新招数,还能确保自己永远跟在知识的最前沿。
在实际体验中,清流flow对@召唤智能体的功能进行了优化,不仅让用户更容易理解AI是如何工作的,输出的结果也更加可控。
未来GLM模型能力的进一步提升,以及更多工具和API的集成,大模型+智能体带来的想象空间越来越值得期待。例如,更高级智能体能够从经验中学习,并根据新的信息和情况调整其行为,智能体之间,以及智能体和用户之间的协作也会更丰富起来。
微软创始人比尔·盖茨曾经预测:智能体不仅会改变每个人与计算机的交互方式,还将颠覆软件行业,掀起一场从输入命令到点击图标以来最大的计算革命。AI智能体将迎来大爆发,每个人都会有一个超级助理。
其实,我们能拥有的又何止一个智能助理。当技术和应用走向成熟,我们都能够拥有多个智能助理,每个助理都有其特定的功能和专长,在不同领域帮助我们。无论是工作、学习还是生活,智能体可以帮助我们自动化更多种类的任务,从而释放出更多时间和精力,让我们可以更专注于创新和解决复杂问题,去从事更有创造性工作和娱乐活动。
随着多智能体的协作进化,也许就像马斯克所说,未来人们可能都不需要工作了。不过这样的未来离我们还有一些距离,在此之前,大家可以先把智谱清言用起来,抢先解锁智能体+工作流的体验。
目前这些7*24小时待命智能体,也许还不能完全替你的工作,但它们可以组队担当用户的智能小助理,帮助打工人提高效率和体验,关键它还是完全免费,支持手机端、PC端及网页使用。
文章来源于“硅星人Pro”,作者“周一笑”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT