GPT-5迟迟没有消息,OpenAI却执着于收购。
继上周买下数据查询公司Rockset后,OpenAI短期内进行了第二次收购-Multi。OpenAI对Rockset的收购的意图显而易见,加强其RAG的检索能力,以便更好地开展ToB业务。
但这次收购的公司Multi,主营业务是桌面远程控制,针对开发任务提供办公协作支持。
桌面远程控制我们都不太陌生,早在10年前这项技术就已经相当成熟了。
协作办公的概念则出现的相对较晚,但市场也已经相对饱和。像全球增长最快的协作办公软件Slack和钉钉,本身也支持远程控制。而他们也都在内部开展着自己的AI应用实验。要和他们抢占SaaS这一替代成本高、相对固化的市场,难度很大。
仅从上述单一业务的视角看,很难看出OpenAI的收购意图。但如果我们它们作为一个宏大计划的一部分,也许就能得出不一样的结果了。
Multi 成立于2019年,总部位于美国旧金山。核心人物有两位,一位是前 Dropbox 产品经理Alexander Embiricos ,毕业于斯坦福大学,专业为机器学习。他在Dropbox的工作也是和内容协作相关。
另一位是前谷歌软件工程师 Charley Ho ,同样毕业于斯坦福大学计算机科学专业。在谷歌工作期间,Charley Ho主要负责Bobop项目,这是谷歌在2015年收购的一家公司,专注企业应用平台开发,在并入谷歌后归属云开发团队。
包括他俩在内,整个Multi 公司只有五名员工。
Multi 致力于打造一个基于 Zoom的远程团队协作平台,即通过视频聊天实现团队协同工作。在2023年的播客中,Embiricos谈到了创业缘起。当时他和Ho在沟通中注意到,大多数视频聊天工具和远程控制工具都是围绕演示而非共同解决问题设计。为了解决这个问题,Multi出现了。
但实际上,他们可能是经过一段时间后才得出这个想法的。2019年Multi 刚刚诞生之时(那时还叫作Remotion), Fast Company 把它描述为一款“轻量级”视频会议工具,可作为 Zoom 或 Microsoft Teams 的替代品。其主要特色在于联系人在侧边栏,更像即时通讯软件。但疫情后视频会议迅速降温,它也转向了更深度的远程协作。
在转变发生的2021年,常规协作办公产品例如Slack早已如日中天,也能支持文本编辑之类的简单工作。同时,另一家定位极其相似的远程协作办公软件Pop的创始人指出,Slack对编程的支持并不感冒。
竞品PoP CEO的心路历程
此时,其他职能领域的协作工具发展日臻成熟,但编程领域的协作工具却无法跟上行业发展的步伐。
“其他职能领域已经获得了新的多人协作工具,使得合作更加迅速——比如设计师使用的 Figma——但工程师们却没有如此强大的工具。当然,我们有像 GitHub 等优秀的拉取请求和仓库工具,但这类似于设计领域停留在 Dropbox + Sketch 的时代。它虽然有效,但本可以更快。”
编程工作是典型的多人协作场景。这是由于现代软件系统非常复杂,一般会涉及多个子系统和组件。一个大型的应用程序通常包含多个模块,如前后端开发、用户界面设计、数据库管理、算法实现、安全机制等,每个模块都需要专业的知识技能,多人协作是常态。
因此,Multi把目光对准这个细分领域,为更为复杂的编程协作工作场景提供支持。
他们主张将协作流程透明化:“把工作从其容器(应用、标签页、屏幕共享等)中解放出来,以便能直接与工作内容及伙伴互动。”
具体来说,Multi 为代码协作提供的核心功能是应用程序的共享。Multi 支持最多 10 人同时跨屏幕协作,通过独立光标,可以对已打开的应用程序进行绘制和标注,甚至将各自不同的应用程序视图融合成一个共享视图。这一UI的特点是:让每个处在工作协作流中的角色都能清楚意识到别人在做什么,自己在做什么。
此外,在这次AI大潮中,Multi还添加了新的AI功能,比如AI 摘要,协助制定行动项,一键生成 Linear 问题等。
OpenAI为什么要收购一家远程桌面控制公司?
了解了Multi的主要业务之后,还是很难理解OpenAI的收购意图。
但仔细阅读一下Multi的收购公告,我们也许能获得一些蛛丝马迹。在其中Multi提到了他们未来的规划和展望:“近期,我们越来越频繁地自问,应该如何与计算机协同工作。不是操作或使用计算机,而是真正地与计算机,与人工智能合作。我们相信,这是当今时代最重要的产品问题之一。”
从这里可以看出,Multi进入OpenAI后的首要目标应该是要开发一款适用于人类与多AI Agents共同协作的工具。
这一表述与OpenAI 的思路几乎完全一致。在几周前,OpenAI的CTO Mira Murati在达特茅斯工程学院的采访中被问到了一个问题:“如果三年后GPT变得异常智能,它会不会自己决定连接互联网并开始行动呢?” Mira回答说 :“Open AI的团队已经基于这种情况进行了很多思考。他们认为,只要AI继续发展下去,具备高智能体能力的系统肯定会出现。而这些AI甚至会结成社群,连接到互联网上 ,互相交流 。并且共同完成某些任务,或者与人类无缝地合作。所以,未来人类与AI的合作就像是今天我们之间彼此合作一样 。”
因此几乎可以判断,这就是OpenAI计划中的后续AI发展方向。而选择此时购买Multi,也许正意味着OpenAI的多Agent能力已经达到了可应用的水平。
(Twitter网友也有这个洞察)
在过去整整一年的时间里,AI Agent系统,尤其是多Agent协作完成复杂任务的系统一直都是业界想要突破的核心产品。在这一过程中,诞生了Langchain,AutoGen等结合Agents共同工作的系统。也诞生了ComfyUI、Dify、Coze等一系列专注搭建复杂Agent系统的工作流式软件。
比如Perplexity最近推出的Pages产品就是一个多Agent协作达成的产品,因为单独的模型在不调用其他Agent的情况下很难完成这样复杂的排版,选图设计。
Perplexity的Pages
Pages明显是受到了今年3月份一个开源的多Agent项目GPT- Newspaper的影响。在这个项目中,团队用到了足足七个Agent,对一份报纸生产的内容进行了工作流分解,最终让AI形成了一份有着多信源审核、专业而排版丰富的报纸。
GPT-Newpaper的流程图
GPT- Newspaper生成的报纸
既然已经有了业界的多Agent成熟产品,OpenAI没理由不为它做进一步布局。
而AI与人协作的概念出现也的非常早。在ChatGPT刚刚诞生半年后,其主要合作伙伴微软就在Build大会上推出了Copilot这个概念,即让AI作为一个副驾驶的角色,协助人类完成其日常工作。这种人机协作呈现是在微软的各种工具中,以大语言模型为核心,解决工具涉及的具体问题,如Github Copilit就是专注于编程服务,Microsoft 365 Copilot专注于完成文档性的工作,但各个Copilit之间其实没有太多联动。
同期,微软也公布了Windows Copilot这个系统级的协作AI,但直到今天这一功能依然比较受限于对话式调用功能,和其他的Copilot之间的系统性联系也趋于表面。
Windows Copilot
而OpenAI想做的也许正是这一协作模式的升级版本,即将如Github Copilot,Micorsoft Copilot这一个个单独针对某个应用优化过的Agent联合起来,综合为处理更复杂事物的应用。
功能很强大,但它有个小问题。试想一下,这一AI Agent的组合如果足够强大的话,它基本上可以完成人所能完成的所有事物。人在这一过程中,除了发布需求之外,基本是可以被取消掉的。这在用户体验上是一种极其不良的感受。
为平滑化这一体验,OpenAI的这个多Agent游乐场需要营造出一种“多人协作”感,仿佛AI是与你在并肩工作。你能感受到AI们,随时了解其进程。
而当Agent功能还没有这么强大时,这一步骤更为必要。因为AI可能随时需要你的帮助或对需求的进一步澄清和确认。这种交互也是以并肩工作的战友间的交流最为舒适。
根据我们上文对Multi的介绍来看,它之前所做的就是构建一个多参与者参与,同步完成复杂任务的协作系统,而且它最擅长的就是通过其丰富的UI,营造出直观的同时协作感。
虽然Multi的工作已经大概能想象了。但这里还有一个疑问还没有完全解决。这么复杂的,需要调动多个AI Agent的场景,OpenAI打算用在哪里?
它应该首先是被应用在一个针对苹果的应用系统上。
Multi 联合创始人兼首席执行官 Alexander Embiricos 昨日在其 X 账号上发文,表示他(以及推测中的整个 Multi 团队)已加入 OpenAI 的“ChatGPT 桌面团队”,该团队负责继续开发于 2024 年4月发布的 ChatGPT Mac 桌面应用程序。
在今年OpenAI的春季发布会上,OpenAI展示了它支持录屏功能,通过识别语音和屏幕内容展开对你当下工作的具体分析能力。
一个多月过去了,这个功能还没有实装
Multi成员这次全员加入桌面App的开发就证明了,OpenAI并不是只把这个桌面App当作一个简单的调用ChatGPT的产品。
他们希望这个App本身,成为一个新的操作系统,一个LLMOS(大语言模型操作系统)
今年三月,OpenAI的前核心科学家Andrey Karpathy在参加活动时,就曾经说过“OpenAI目前正在努力构建一个类似于操作系统的东西——LLMOS。”
Multi收购事件中X上的最热门评价
LLMOS是Karpathy在去年十二月提出的一整套系统,它以某个强大的大语言模型为内核进程,成为调动所有其他系统内工具的操作系统。他认为它将和Windows,MacOS一样,成为后续人机交互的新模式。
这是Karpathy在去年十二月认为LLMOS想要实现所需要所有能力:可以浏览互联网;使用已有的软件基础设施(计算器、Python语言、鼠标/键盘);理解语言和视频(图片);可以进行复杂的思考;可以在一些能够提供奖励函数的领域里自我提升能力;可以从“应用商店”里下载;拥有自己的文件系统,或者可以调用外部文件并进行搜索;可以针对某些特殊的任务被定制和精调、可以与其他大语言模型沟通。而在当时ChatGPT只解决了联网和外部编程工具调用。
Karpathy设想的LLMOS架构
时间来到今年6月,我们看到OpenAI这几个月确实在按照Karpathy设想的一样,在逐步补齐和完善这一LLMOS拼图。他在提出这一设想时的大模型硬性指标“能力要达到GPT-4的水准,能每秒吐出20个Tokens以上,“存储”要能够达到128k Tokens,在GPT-4o上也已经达成。而其软性能力的完善程度也相当高了。比如联网功能更完善、Code Interpreter进化到可以做数据分析的水平了。
OpenAI当下的完成度
这意味着LLMOS的基础能力已经准备的差不多了。
而对OpenAI自身来讲,LLMOS框架中目前还没有被比较好解决的只有RAG系统和多Agent调用与交互。这两个系统,过去在OpenAI的升级中几乎都没有被提及。
但OpenAI最近买的两个公司,Rockset负责信息检索;Multi负责多Agent(LLM)交互。正好补齐这两个OpenAI在构建LLMOS中的短板。
这张拼图,在这两个公司加入后,总算是拼完了。承载OpenAI版本LLMOS的,应该就是这一最新的桌面系统。
而Multi在其中的角色可能远比我们想象中的重要。
Karpathy在3月的采访中还表示,“LLMOS将为不同的公司和垂直领域提供定制化的应用。就像Windows操作系统自带一些默认的应用程序一样,LLMOS也会有一些默认的应用。同时也会针对经济活动中的不同领域去支持一个丰富的第三方应用生态。”
但这些应用的形态可能和传统App不同。今年3月上线的,当下Github上最火热的LLMOS项目AIOS,把在LLMOS系统中的应用描述成了一个个由LLM调动的Agent。
AIOS架构,最上层就是各种Agent应用
这背后的逻辑不难理解。现在所有的第三方应用生态基本上都在追求着AI化,想尽办法把大语言模型的能力与其产品进行结合。这一过程实际上就是在将一个个三方应用进行Agent化的过程。它们既然进行了这一步,OpenAI也无需再调整每个应用的调用API,由GPT自己去进行专门的对应用的调用。它只需要把调用Agent的能力整合进 API,提供“代理模式”,供开发者将Agent嵌入任何应用或网站。
GPT自己做好主脑,完成调用排序,让这些各个应用中更专长的Agent去联合完成具体任务即可。
因此新的LLMOS本身就可能会是一个多个Agent协作的主场,这一过程的底层产品设计可能就决定了整个系统的体验。
这就是Multi的重要性。
为什么是Multi?
多人代码协作功能并非Multi 独有,市面上具备同类功能的产品还有很多。比如强于编辑器且支持多人协作的Zed, 以及主攻协作体验的Pop、Tulpe等,后两个产品甚至连界面和功能都与Multi高度相似。能够被OpenAI选中,Multi肯定有它的过人之处。
Pop的代码协作功能演示,基本一模一样
与其他功能类似的产品相比,Multi展现出了更多的对AI的理解和设计能力。
在今年三月,Multi发布了一次更新,加入了AI功能。
在其更新文档中,他们阐述了自己的AI理念:与GitHub前沿研究院Wittenburger一样,认为聊天机器人并非大语言模型最好的归宿。
Multi在博客中直接引用了Wittenburger的思考
他们认为比起“没有上下文,造成一定认知负担”的AI人机问答,用户更需要“润物细无声”式的协作智能。这其实和OpenAI一直奉行的简洁、自然的应用理念正相符合。
Multi的AI更新
他们还总结出三条AI产品的理念:
● 让LLMs从事更擅长的事。Multi认为LLMs不适合提炼多人协作中涉及到的决策、理由或计划这类需要确保准确性的信息,因为它尚且不具备识别细节的能力,很可能会歪曲事实。但是LLMs擅长将记录转换为可略读的片段,因此主张将LLMs用于提炼重点并建立索引,协作者可以根据摘要轻松锁定目标,并且回到带有上下文的具体场景中解决问题。
● 将AI内化为参与者。“我们能否将 AI 融入熟悉的多人协作功能中,而不是创建一个新系统?”本着这样的产品理念,AI被视作队友而非单独的笔记整理程序。在生成摘要的过程中,AI与用户的操作被丝滑整合到同一个界面中,并且可以和用户一同添加、编辑摘要内容。
● 开放式输入。Multi摒弃聊天界面输入-输出的互动方式,开放式地保留用户和AI的自主性。在视频会议结束后,Multi只会自动触发AI摘要。如果用户需要了解更为详细的事宜,可以通过创建行动项的方式补充。同时,Multi配备的笔记copilot还能根据上下文对用户的笔记进行预测。
除了观念层面,Multi在AI落地能力上也相当不错。他们将AI视作独立的智能体参与协作,而非被动的生产工具——在每场会议中,它会自动在会议结束后帮助你进行相关总结。如果你需要,只要点击一下就可以。而且它只会总结你最需要的信息,比如探讨的重点和下一步的计划。
如果你想继续丰富这一总结,那可以拉到下面,Multi也给出了引导性的问答系统。结构非常符合一般用户习惯和诉求。
分割清晰
通过这些原则和实践,Multi看起来确实有能力作为OpenAI打造多Agent协作系统时所需要的帮手。
除了技术上的优势,Multi背后的投资方也和OpenAI有着千丝万缕的联系。
公开资料显示,Multi在今年早些时候接受了Greylock 以及 First Round Capital 等风投公司的近 1300 万美元的投资。
Greylock是一家位于硅谷的顶尖风投,早期投资过Facebook、Linkedin、 Instagram、Dropbox等明星公司。在新一轮的AI投资浪潮中,Greylock 甚至被称作 “离全球顶尖的两家人工智能实验室 OpenAI、DeepMind 最近的VC”。
这要得益于Greylock中的一位合伙人——Reid Hoffman。2015年,Hoffman和马斯克、奥特曼等人共同出资创立了OpenAI,此时Reid Hoffman已经担任 Greylock合伙人多年,这让Greylock在AI浪潮里占尽先机。
OpenAI近期的收购的Rockset的投资方中,也有Greylock。
两起收购都和Reid Hoffman有关,这很有可能也是OpenAI选择Multi背后的一个关键因素。
本文来自微信公众号“腾讯科技”(ID:qqtech),作者:郝博阳 李安琪
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/