图片来源:Sequoia Capital
生成性人工智能革命的两年里,研究正在将这一领域从“快速思考”——快速的预训练响应——推进到“慢速思考”——推理时的推理。这一演变正在解锁一批新的自主应用。
在我们文章“生成性人工智能:一个创造性的新时代”的两周年之际,人工智能生态系统看起来截然不同,我们对未来有一些预测。
生成性人工智能市场的基础层正在与一组关键的规模化参与者和联盟达到平衡,包括微软/OpenAI、AWS/Anthropic、Meta 和谷歌/DeepMind。只有拥有经济引擎和获取大量资本的规模化参与者仍在竞争中。尽管斗争远未结束(并且以博弈论的方式不断升级),市场结构本身正在巩固,显然我们将会有越来越便宜和丰富的下一个令牌预测。
随着LLM市场结构的稳定,下一片蓝海正在浮现。焦点正转向推理层的开发和扩展,在这里,“系统 2”思维占据主导地位。受到像 AlphaGo 这样的模型的启发,这一层旨在赋予 AI 系统在推理时进行深思熟虑的推理、解决问题和认知操作的能力,超越快速模式匹配。而新的认知架构和用户界面正在塑造这些推理能力如何传递给用户并与之互动。
这对人工智能市场的创始人意味着什么?这对现有的软件公司意味着什么?作为投资者,我们在哪一层次上看到生成性人工智能堆栈中最有前景的回报?
在我们最新的关于生成性人工智能市场状况的文章中,我们将探讨基础 LLM 层的整合如何为提升这些更高阶推理和自主能力的竞争奠定基础,并讨论一代新的“杀手级应用”,它们具有新颖的认知架构和用户界面。
2024 年最重要的模型更新归属于 OpenAI,名为 o1,之前称为 Q*,也被称为草莓。这不仅是对 OpenAI 在模型质量排行榜上应有地位的重新确认,也是对现有架构的显著改进。更具体地说,这是第一个具备真正通用推理能力的模型示例,他们通过推理时的计算实现了这一点。
这是什么意思?预训练模型在大量数据上进行下一个标记预测。它们依赖于“训练时计算”。规模的一个新兴特性是基本推理,但这种推理非常有限。如果你能教一个模型更直接地推理呢?这正是草莓所发生的。当我们说“推理时计算”时,我们的意思是让模型在给出响应之前停下来思考,这在推理时需要更多的计算(因此称为“推理时计算”)。“停下来思考”部分就是推理。
那么,当模型停下来思考时,它在做什么?
让我们先快速回到 2016 年 3 月的首尔。深度学习历史上最重要的时刻之一就在这里发生:AlphaGo 与传奇围棋大师李世石的对弈。这不仅仅是一场 AI 与人类的对决——这是世界看到 AI 不仅仅是模仿模式的时刻。它在思考。
AlphaGo 与之前的游戏 AI 系统(如 Deep Blue)有什么不同?像LLMs一样,AlphaGo 首先经过预训练,以模仿人类专家,从大约 3000 万步的历史游戏数据库和更多的自我对弈中学习。但与其提供来自预训练模型的本能反应,AlphaGo 会花时间停下来思考。在推理时,模型会在广泛的潜在未来场景中进行搜索或模拟,评估这些场景,然后以预期价值最高的场景(或答案)作出回应。给 AlphaGo 的时间越多,它的表现就越好。在没有推理时间计算的情况下,模型无法击败最优秀的人类玩家。但随着推理时间的增加,AlphaGo 的表现越来越好——直到它超越了最优秀的人类。
让我们回到LLM的世界。复制 AlphaGo 的难点在于构建价值函数,或者说是评分响应的函数。如果你在下围棋,这就简单多了:你可以模拟游戏直到结束,看看谁赢了,然后计算下一步的期望值。如果你在编程,这也相对简单:你可以测试代码,看看它是否有效。但是,如何给一篇文章的初稿打分呢?或者一个旅行行程?或者一份长文档中关键术语的总结?这就是当前方法在推理上困难的原因,这也是为什么 Strawberry 在与逻辑相关的领域(例如编程、数学、科学)相对强大,而在更开放和非结构化的领域(例如写作)中不那么强大的原因。
虽然草莓的实际实现是一个高度保密的秘密,但关键思想涉及围绕模型生成的思维链的强化学习。对模型思维链的审计表明,实际上发生了一些基本而令人兴奋的事情,这与人类的思维和推理方式相似。例如,o1 显示出在遇到困难时能够回溯的能力,这是推理时间扩展的一个突现特性。它还显示出以人类的方式思考问题的能力(例如,想象球面上的点以解决几何问题)以及以新的方式思考问题的能力(例如,以人类无法做到的方式解决编程竞赛中的问题)。
并且在推动车辆推理时间计算方面(例如,计算奖励函数的新方法、缩小生成器/验证器差距的新方法)没有短缺的新想法,研究团队正在努力提高模型的推理能力。换句话说,深度强化学习是再次变得酷炫,并且它正在启用一个全新的推理层。
从预训练的本能反应(“系统 1”)到更深层次的深思熟虑推理(“系统 2”)是人工智能的下一个前沿。模型不仅仅需要知道事情——它们需要在实时中暂停、评估并推理决策。
将预训练视为系统 1 层。无论一个模型是在围棋的数百万步(AlphaGo)上进行预训练,还是在互联网规模的文本(LLMs)上进行预训练,它的工作是模仿模式——无论是人类的游戏玩法还是语言。但是,模仿,尽管强大,却不是真正的推理。它无法正确地思考复杂的新情况,尤其是那些超出样本的情况。
这就是系统 2 思维的作用,也是最新一波人工智能研究的重点。当一个模型“停下来思考”时,它不仅仅是在生成学习到的模式或根据过去的数据进行预测。它正在生成一系列可能性,考虑潜在的结果,并基于推理做出决策。
对于许多任务,系统 1 已经足够了。正如诺姆·布朗在我们最新一期的训练数据中指出的,花更长时间思考不丹的首都是什么并没有帮助——你要么知道,要么不知道。快速的基于模式的回忆在这里非常有效。
但是当我们面对更复杂的问题时——比如数学或生物学的突破——快速、直觉的反应是不够的。这些进展需要深思熟虑、创造性的解决问题能力,以及——最重要的——时间。人工智能也是如此。要解决最具挑战性和意义的问题,人工智能需要超越快速的样本内反应,花时间提出定义人类进步的深思熟虑的推理。
图片来源:Sequoia Capital
从o1 论文中得到的最重要的见解是,出现了一种新的 Scaling Law 。
预训练 LLMs 遵循一个被广泛理解的 Scaling Law :在预训练模型上投入更多的计算和数据,模型的表现就会更好。
o1 论文为计算扩展开辟了全新的领域:你给模型的推理时间(或“测试时间”)计算越多,它的推理能力就越强。
来源:OpenAI o1 技术报告
当模型能够思考几个小时?几天?几十年?我们会解决黎曼假设吗?我们会回答阿西莫夫的最后一个问题吗?
这种转变将使我们从一个庞大的预训练集群的世界转向 推理云——可以根据任务复杂性动态扩展计算的环境。
当 OpenAI、Anthropic、谷歌和 Meta 扩展它们的推理层并开发越来越强大的推理机器时,会发生什么?我们会有一个模型统治所有吗?
在生成性人工智能市场初期的一个假设是,某个单一模型公司会变得如此强大和全面,以至于会吞并所有其他应用程序。到目前为止,这一预测在两个方面是错误的。
首先,模型层竞争激烈,各种 SOTA 能力不断被超越。可能会有人通过广泛领域的自我对弈实现持续自我改进并取得突破,但目前我们尚未看到任何证据。恰恰相反,模型层就像一场刀斗,GPT-4 的每个 token 价格自上次开发日以来下降了 98%。
其次,这些模型在应用层作为突破性产品大多未能成功,唯一的例外是 ChatGPT。现实世界是复杂的。优秀的研究人员并不想深入了解每个可能领域中每个功能的细节端到端工作流程。对他们来说,停留在 API 层面既有吸引力又在经济上是合理的,让开发者去处理现实世界的复杂性。这对应用层来说是个好消息。
作为科学家,你规划和执行行动以实现目标的方式与作为软件工程师的工作方式截然不同。此外,作为不同公司的软件工程师,工作方式也会有所不同。
随着研究实验室进一步推动横向通用推理的边界,我们仍然需要应用或领域特定的推理来提供有用的人工智能代理。复杂的现实世界需要显著的领域和应用特定推理,这无法有效地编码在通用模型中。
输入认知架构,或者说你的系统是如何思考的:代码和模型交互的流程,接收用户输入并执行操作或生成响应。
例如,在工厂的案例中,他们的每个“机器人”产品都有一个定制的认知架构,模仿人类思考以解决特定任务的方式,比如审查拉取请求或编写和执行迁移计划,以将服务从一个后端更新到另一个后端。工厂机器人会分解所有依赖关系,提出相关的代码更改,添加单元测试,并邀请人类进行审查。然后在获得批准后,在开发环境中对所有文件运行更改,如果所有测试通过,则合并代码。就像人类可能会做的那样——以一组离散的任务,而不是一个通用的黑箱答案。
图片来源:Sequoia Capital
想象一下你想在人工智能领域创业。你打算瞄准哪个层级?你想在基础设施上竞争吗?祝你好运,打败 NVIDIA 和超大规模云服务商。你想在模型上竞争吗?祝你好运,打败 OpenAI 和马克·扎克伯格。你想在应用程序上竞争吗?祝你好运,打败企业 IT 和全球系统集成商。哦,等等。这听起来其实是相当可行的!
基础模型是魔法,但它们也很复杂。主流企业无法处理黑箱、幻觉和笨拙的工作流程。消费者盯着空白的提示,不知道该问什么。这些都是应用层的机会。
两年前,许多应用层公司被嘲笑为“只是 GPT-3 之上的包装”。今天,这些包装被证明是建立持久价值的唯一可靠方法之一。最初作为“包装”的东西已经演变为“认知架构”。
应用层人工智能公司不仅仅是在基础模型之上的用户界面。远非如此。它们拥有复杂的认知架构,通常包括多个基础模型以及某种路由机制,向量和/或图数据库用于检索增强生成(RAG),确保合规性的保护措施,以及模仿人类在工作流程中推理方式的应用逻辑。
云转型是软件即服务。软件公司成为云服务提供商。这是一个 3500 亿美元的机会。
由于代理推理,人工智能转型是软件即服务。软件公司将劳动转化为软件。这意味着可寻址市场不是软件市场,而是以万亿美元计量的服务市场。
图片来源:Sequoia Capital
销售工作意味着什么?Sierra 就是一个很好的例子。B2C 公司在他们的网站上放置 Sierra 与客户沟通。要完成的工作是解决客户的问题。Sierra 按每个解决方案收费。没有“一个席位”这种说法。你有一个要完成的工作。Sierra 完成它。他们相应地获得报酬。
这对许多人工智能公司来说是真正的北方。Sierra 受益于拥有优雅的失败模式(升级到人工代理)。并不是所有公司都这么幸运。一个新兴的模式是首先作为副驾驶(人机协作)进行部署,并利用这些代表赢得作为自动驾驶(无人工干预)部署的机会。GitHub Copilot 就是一个很好的例子。
随着生成性人工智能推理能力的初步发展,一类新的自主应用程序开始出现。
这些应用层公司呈现出什么形状?有趣的是,这些公司与它们的云计算前辈看起来不同:
云公司瞄准软件利润池。人工智能公司瞄准服务利润池。
云公司销售软件(每个坐席 $)。人工智能公司销售工作(每个结果 $)。
云公司喜欢自下而上,采用无摩擦的分发方式。人工智能公司则越来越倾向于自上而下,采用高接触、高信任的交付模式。
我们看到这些自主应用在知识经济的各个领域中出现了一个新的群体。以下是一些例子。
Harvey:AI律师
Glean:AI 工作助手
Factory:AI软件工程师
Abridge:AI 医疗书记
XBOW:AI 渗透测试工具
Sierra:AI客服
通过降低提供这些服务的边际成本——与推理成本的急剧下降相一致——这些自主应用正在扩展并创造新的市场。
以 XBOW 为例。XBOW 正在构建一个 AI“渗透测试工具”。“渗透测试”或称为渗透测试,是对计算机系统进行的模拟网络攻击,企业进行此测试以评估自身的安全系统。在生成式 AI 出现之前,企业仅在有限的情况下(例如,合规要求时)雇佣渗透测试人员,因为人工渗透测试成本高昂:这是由高技能人类执行的手动任务。然而,XBOW 现在正在展示基于最新推理的自动化渗透测试 LLMs,其性能与最优秀的人类渗透测试人员相匹配。这将扩大渗透测试市场,并为各类企业提供持续渗透测试的可能性。
今年早些时候,我们与我们的 LP 会面。他们最关心的问题是:“人工智能的转型会摧毁你们现有的云公司吗?”
我们一开始就强烈地默认“否”。初创公司与现有公司的经典斗争就像一场赛马,初创公司在建立分销,而现有公司在开发产品。那些拥有酷炫产品的年轻公司能否在拥有客户的现有公司推出酷炫产品之前,获得大量客户?考虑到人工智能的许多魔力来自基础模型,我们的默认假设是不会的——现有公司会做得很好,因为这些基础模型对他们来说和对初创公司一样可获取,而他们在数据和分销方面有着先天优势。初创公司的主要机会不是取代现有的软件公司,而是去争取可自动化的工作池。
话虽如此,我们不再那么确定。请参见上文关于认知架构的内容。将模型的原始能力转化为一个引人注目、可靠的端到端商业解决方案需要大量的工程工作。如果我们只是大大低估了“人工智能原生”的含义呢?
二十年前,传统软件公司嘲笑 SaaS 的想法。“有什么大不了的?我们也可以自己运行服务器,通过互联网提供这些服务!”当然,从概念上讲,这很简单。但随之而来的是业务的全面重塑。EPD 从瀑布式开发和 PRD 转向敏捷开发和 AB 测试。GTM 从自上而下的企业销售和牛排晚宴转向自下而上的 PLG 和产品分析。商业模式从高 ASP 和维护收入转向高 NDR 和基于使用的定价。很少有传统公司成功转型。
如果人工智能是一个类似的转变呢?人工智能的机会是否可以是既销售工作又替代软件?
通过 Day.ai,我们看到了未来的曙光。Day 是一个原生于 AI 的客户关系管理系统。系统集成商通过配置 Salesforce 来满足您的需求,赚取数十亿美元。只需访问您的电子邮件和日历,以及回答一份一页的问卷,Day 就能自动生成一个完美契合您业务的客户关系管理系统。它还没有所有的附加功能(但未来会有),但这种无需人工输入的自动生成的客户关系管理系统的魔力,已经让人们开始转变。
作为投资者,我们的精力花在哪里?资金被投入到哪里?这是我们的简要看法。
这是超大规模公司的领域。它是由博弈论行为驱动的,而不是微观经济学。对风险投资家来说,这是个糟糕的地方。
这是超大规模企业和金融投资者的领域。超大规模企业正在用资产负债表换取收益表,投资的钱最终会以计算收入的形式回流到他们的云业务中。金融投资者则受到“被科学震撼”的偏见影响。这些模型非常酷,这些团队令人印象深刻。微观经济学去死吧!
对战略家来说不太有趣,但对风险投资家来说更有趣。在云转型期间,这一层创建了大约 15 家公司,年收入超过 10 亿美元,我们怀疑在人工智能领域也可能会出现同样的情况。
风险投资中最有趣的层面。在云转型期间,创造了约 20 家年收入超过 10 亿美元的应用层公司,在移动转型期间又创造了约 20 家,我们怀疑在这里也会出现同样的情况。
图片来源:Sequoia Capital
在生成性人工智能的下一个阶段,我们预计推理研发的影响将波及到应用层。这些波动迅速而深远。迄今为止,大多数认知架构都采用了巧妙的“解锁”技术;现在这些能力正越来越深入地融入模型本身,我们预计代理应用将变得更加复杂和强大,迅速实现。
在研究实验室,推理和推断时间计算将在可预见的未来继续成为一个重要主题。现在我们有了新的 Scaling Law ,下一场竞争已经开始。但对于任何特定领域,收集真实世界数据并编码领域和应用特定的认知架构仍然很困难。这再次是最后一公里应用提供商在解决复杂现实世界中的多样化问题时可能占据优势的地方。
考虑到未来,多智能体系统,如工厂的机器人,可能会开始普及,成为建模推理和社会学习过程的方式。一旦我们能够工作,就可以有团队的工人完成更多的任务。
我们都在热切期待生成性人工智能的第 37 步,那一刻——就像 AlphaGo 在与李世石的第二场比赛中一样——一个通用人工智能系统用超人类的方式给我们带来惊喜,感觉像是独立思考。这并不意味着人工智能“觉醒”(AlphaGo 并没有),而是我们模拟了感知、推理和行动的过程,人工智能可以以真正新颖和有用的方式进行探索。这实际上可能就是 AGI,如果是这样,它将不是一次性的事件,而只是技术的下一个阶段。
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI