AI从技术卷向场景。
这两天,备受瞩目的 OpenAI 新项目又有了新消息。
The Information 援引内部消息报道称,OpenAI 计划最快将在今年秋天推出代号「草莓(Strawberry)」的全新 AI,其拥有前所未有的「推理」能力,可以处理复杂的数学和编程任务,甚至还能体现在日常生活中的非技术问题上。
此外,报道还指出这项技术对未来 AI 产品,特别是旨在解决多步骤任务的「智能体(Agent)」具有重要意义。
又是智能体。
在 2022 年年底 ChatGPT 大火之后,「智能体」很快就从故纸堆中一跃而出,引起整个行业的广泛关注。而从开源项目 AutoGPT 到 OpenAI 官方推出的 GPTs 和 GPT 商店,作为「雏形」,也都在一定程度上展现了 AI 智能体的潜力与必要。
但如果说在 2023 年,人工智能行业的发展和竞争更多还是聚焦在大模型本身,关于智能体探索才刚刚迈出第一步。那到了 2024 年,从 Google 到百度,从阿里巴巴、字节跳动到 OpenAI,国内外都在明显加快了智能体落地的步伐。
如果平常关注 AI 领域,我相信读者们一定不少看到或者听到「智能体」这个词。但智能体到底是什么?可能很难讲清楚。
事实上,在 1995 年出版的《未来之路》一书中,微软公司创始人比尔·盖茨就提到了「智能体」的概念。但近三十年间,「智能体」的概念显然发生了不小的变化,尤其是在 ChatGPT 之后基于大模型的「智能体」。
图/ OpenAI
而时至今日,学术界对于「智能体」也没有一个比较统一的定义。不过一般认为,「智能体」是能够自主感知环境、做出规划、执行任务的智能实体,不是「副驾驶」,而是主驾驶。
也可以用一个比较直观的公式来表示:
Agent(智能体)= LLM(大模型)+Planning(规划)+Feedback(反馈)+Tool use(工具使用)
以人类借助 ChatGPT 写一篇文章为例,如果想要确保文章的质量,我们通常需要先确定一个选题,然后让 AI 辅助生成文章大纲,再通过 AI 的搜索能力进行分析、调研,然后再让 AI 生成第一版,最后则是通过不断地反馈优化内容,并得到最终的版本。
而 AI 智能体在大模型基础上,通过自主的规划、反馈和工具使用能力,进一步减少了人工介入的操作。更具体来说,AI 智能体能够自主使用资料搜索、阅读理解、数值计算等工具,再通过规划「大纲——搜索、分析、调研——初稿——反馈再优化」多步骤任务,实现「人类一句话,AI 跑断腿」的效果。
简言之,AI 智能体通过迭代和对话式的模式工作,不再是简单的指令执行者,而是能够进行自我反思、规划和修正的参与者。
「智能体不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。」
去年 11 月,比尔·盖茨在其个人网站发布了一篇题为《AI 将彻底改变计算机使用方式》的博文,认为 AI 智能体(AI Agent)将在未来五年颠覆人们使用计算机的方式。
坚定看好 AI 智能体的人当然不只是比尔·盖茨。
吴恩达演讲,图/ YouTube
今年 3 月,斯坦福大学教授吴恩达指出,他们在研究中基于 GPT-3.5 构建的智能体工作流在应用中表现可以比 GPT-4 要好,基于 GPT-4 构建的智能体工作流效果当然还可以更好。由此他还表示,AI 智能体将在今年(2024 年)推动 AI 的大规模进步:
甚至可能超过下一代基础模型所带来的影响。
到 7 月举办的世界人工智能大会上,基于大模型的智能体已经成为了绝对的焦点。蚂蚁集团董事长兼 CEO 井贤栋在演讲中表示,从实践来看,专业智能体是大模型落地严谨产业的有效路径。百度创始人李彦宏更是明确表示,智能体是百度最看好的人工智能应用发展方向。
同期,谷歌还推出了 AI 智能体平台 Oscar,让开发者可以通过一定的配置就能生成各种的 AI 智能体。但类似的 AI 智能体平台不只是谷歌一家:
百度文心有 AgentBuilder,字节跳动有扣子(Coze)以及 HiAgent,阿里巴巴有百炼智能体和钉钉智能体,腾讯微信有云开发 AI 智能体……智能体平台逐渐开始成为大模型厂商的一种「标配」。百度甚至还喊出了「人人都是开发者」的口号。
图/扣子
可以说,在经历 2023 年的思考和探索之后,AI 智能体在 2024 年已经成为了人工智能行业的新共识。
去年年底,OpenAI 推出了 GPTs 和 GPT 商店,允许用户无需编码就可创建自己版本的 GPT。但 GPTs 依然是充当「副驾驶」的角色,只是多了更多个性化定制的可能,并不能将任务拆解,并且一步步推算和执行。
事实上,今天很多标榜为 AI Agent 的「智能体」,其实更多还是 ChatBot(聊天机器人),反倒是钉钉的 AI 助理(英文名为 AI Agent)更接近实质上的智能体。
如何判断并不困难,核心在于在任务过程中人工的介入程度,以及大模型在规划、决策上的参与程度,由此可以判断一个名义上的「智能体」到底是更接近真的智能体,还是接近常规的 AI 聊天机器人。
图/钉钉
但必须要指出,从「副驾驶」到「主驾驶」,当下的智能体在技术上还有很大的进步空间,并未能带来颠覆性的体验。不过更重要的是未来,比起以聊天为交互形式的聊天机器人,AI 如果想要更深入生活、改变生活,就需要让 AI 拥有更强的自主性。
理想情况下,AI 智能体能够根据各种条件智能地作出决策和规划。比如在制定旅游规划的时候,可以自主搜索旅游的交通住宿以及各种旅游信息,并且充分考虑用户的历史偏好和习惯,查漏补缺进行多次补充和修改。
又比如用户在下班后夏夜里,即将拖着疲累的身心到家,AI 应该可以根据汽车或者手机位置提前感知到,并根据位置和时间在不断阶段智能地打开空调、扫地机器人、灯光等设备。
就如同在盖茨的构想中,未来我们不再需要为不同的任务切换到不同的应用中,需要用平常的语言告诉电脑和手机想做什么,而后根据用户愿意分享的数据,智能体将个性化地作出反应。
本质上,智能体其实是在 AI 的基础上借鉴人类的思考方式,构建更加专业的推理和决策能力,以此提供更加智能化的用户体验。所以在一定程度上,AI 智能体相比 ChatGPT 更进了一步。
但可想而知的是,单一智能体无法满足无数人的无数种需求,所以井贤栋认为未来智能化的用户体验需要很多的专业智能体共同参与、各司其职,李彦宏认为未来将出现数百万量级的智能体。
下一个平台的竞争,势不可挡。
而正如移动时代的 App Store,伴随智能体的兴起,AI Agent Store 也在成为新的竞争焦点。所以除了场景上的角力,对拥有基础大模型的大厂来说,生态更是智能体发展过程中核心之一,也是兵家必争之地。
文章来源于“雷科技”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md