在今年的 NeurIPS 2024 大会上,硅谷最著名的 VC 之一 Conviction Capital 创始人 Sarah Guo 和合伙人 Pranav Reddy 做了一场 “AI 创业公司的现状(The State of AI Startups)”的分享。
在这场分享中,她系统梳理了2024年AI领域的五大关键主题,包括底层模型竞争格局的变化、开源模型的惊人进步速度、小模型的性价比优势、多模态的突破,以及 Scaling Law 的突破口还有2025 年投资机会等热门话题,我们认为是今年听过的最佳分享之一。
文章不仅提供了详实的数据支持,还深入分析了这些变化对AI创业生态的影响。特别值得关注的是,文章揭示了当前AI投资环境正逐步趋于理性,以及更重要的是,应用层的价值过往被低估的现象正在改变。
原视频链接:https://www.youtube.com/watch?v=HM1d7kMebEI
今天的议程很简单。我们将讨论 2024 年的模型格局与主题、我们对 AI 创业公司的看法,以及我们在投资方面认为有效的一些潜在观点。
2023 年 10 月,OpenAI 刚推出向 ChatGPT 上传图片的功能,意味着 LLM 能够理解图片了,我们正式进入了多模态时代;Mistral 团队恰好在 NeurIPS 2024 开始前发布了 Mixtral 模型,谷歌也发布了最新版本的 Gemini 2.0;欧洲刚宣布了首轮 AI 监管,不过这肯定不会是最后一轮……
当我们思考 2024 年发生了哪些变化时,至少能想到五个主题,这些主题能够描述 2024 年对 AI 和创业公司的意义。
首先,底层模型的竞争较 2023 年更为激烈。这是 Chatbot Arena (LLM 性能评估平台)的数据,我们要求用户对特定提示生成的回答进行评分。你会得到两个语言模型的两个回答,然后判断哪个更好。
解读这个数据的方式是:大约 100 点的 Elo 分差意味着你有三分之二的时间会更倾向于选择某一个。一年前,每个 OpenAI 模型都比其他任何模型高出 100 多分。
当时普遍认为 OpenAI 就像 IBM 一样主导市场,竞争毫无意义,每个人要么去 OpenAI 训练模型,要么就使用 OpenAI 的模型。但现在情况不同了。如果一年前你告诉人们:目前在大模型评估中表现最好的模型不是 OpenAI 的,而是谷歌的,大多数研究人员都会觉得难以置信。
但实际上,现在市场上有各种各样的 LLM 供你选择,一些开源模型的竞争力也在不断提升。
这不仅体现在模型评估方面,在模型调用所耗费的 token 总量上也是如此。
根据企业支付管理 SaaS 公司 Ramp 统计的数据,去年 11 月底,OpenAI 的 token 消耗占总量接近 90%。而今天,不到一年后,这个比例降到接近 60%。我认为这表明语言模型 API 很容易切换,人们正在尝试各种不同的选项以找出最适合自己的方案。
第二个相关趋势是开源模型的竞争力持续提升。我们能得出这个结论得益于 SEAL (由 Scale AI 推出的一个 LLM 评估平台)排行榜的独立评估,该排行榜以客观、公正为原则,涵盖了底层模型公司高度重视的多个关键主题。在数学能力、指令遵循以及对抗性鲁棒性等方面,开源模型表现尤为出色,其中 Llama 模型更是跻身前三名。
显然,在某些领域,闭源模型公司拥有更多数据,或在针对这些用例的训练方面有更多专业知识,但开源模型的效果正令人惊讶地越来越好。
这在各种评估中都很明显。这是 MMLU 评估。需要指出的两点是:一是排名第九且仅落后最先进模型两分的竞争者实际上是一个 700 亿参数的模型,这相当令人惊讶。
这会让很多人意外,因为之前普遍认为大多数智能只是一种涌现属性,而且在较小规模上能够注入的智能是有限的。事实上,一年前最好的小型模型(参数少于 100 亿) Mistral - 7b,它在这个评估中得分在 60 左右。而今天是 Llama 8B 模型,提高了超过 10 分。
大参数模型与小型模型之间的差距实际上在缩小,同样相关的是,我们认为智能的价格已经大幅下降。这是 OpenAI 旗舰模型成本的图表,显示 API 成本在过去一年到一年半内下降了大约 80 - 85%,这相当惊人。
我们做了一些计算,如果你想用 AI 构建类似 Notion 或 Coda 这样的应用程序,你所需要耗费的 token 仅仅只需要几千美元。虽然数据分布可能不同,但从规模的角度来看,你可以创建海量数据。
需要指出的是,在像 Elevenlabs 这样的公司出现之前,语音模型就已经存在了。但我们认为,低延迟语音不仅仅是一个功能特性,它实际上是一种全新的交互体验。使用语音模式的感受,与传统转录优先的模型有很大不同。很多笛卡尔模型也是如此。
另一个新兴的用例是执行能力,比如 Claude 的 Computer Use 能力,以及 OpenAI 在 Canvas 中推出了代码执行功能。我还听说 Devin (AI Coding Agent 产品)刚刚宣布,你们每月只需 500 美元就可以试用,这相当惊人。这些功能在过去从未向大多数人开放过,效果相当惊人。
Cognition 这家公司成立还不到一年,第一个产品是在大约 9 个月前发布的,这非常令人印象深刻。
我们想提到的最后一个新模态是视频。当然,还有很多其他的领域。
最后一点我们想指出的是,备受讨论的 Scaling Law 的终结。Scaling Law 是存在一定限制的,但似乎也出现了新的扩展范式,OpenAI 似乎已经破解了一个可行的方式。
我们认为:
1.大模型公司会找到更好的方法来突破 Scaling Law 的限制(比如 RL self-play);
2.到目前为止,这种方法主要适用于一些可验证的领域,比如数学和物理,其次可能是软件工程,因为这些领域的目标和评估标准比较明确。不过,明年我们将面临一个新的开放性问题,那就是如何为那些目标不够清晰或评估标准模糊的领域找到合适的方法。
那么,这对创业公司意味着什么?一种普遍的观点认为,我们正处于 AI 泡沫之中。大量资金流向 AI 公司和创业公司,但从实际成果和运营情况来看,这在很大程度上是不合理的。
但如果进一步分析这些数字,红色部分实际上只代表少数几家底层模型实验室,也就是那些最大的实验室。今年的融资额高达 300-400 亿美元。因此,融资环境的现实看起来其实要理性和健康得多。我们似乎不会重现 2021 年的情况。
事实上,虽然底层模型实验室确实获得了大量融资,但流向那些真正在运营的公司的资金规模看起来要合理得多。我们想给大家展示一下。虽然我们不能分享每家公司的具体数字,但这是我们投资组合中一家增长非常快的公司。
我们认为从零增长到 2,000 万美元以及 PLG 式的支出相当令人印象深刻。虽然这肯定不是所有收入超过 1,000 万并且在增长的公司,但我们选取了其中一部分,想给大家分享一些我们注意到的普遍有效的模式。
第一个我们注意到的是第一波服务自动化。我们认为现在公司里有大量工作没有完成,原因可能是雇人太贵,为他们提供背景信息并使他们在特定角色中取得成功的成本太高,或者管理这些人太困难。
我们注意到的第二个趋势是更好的搜索新方向,文本模态的效果令人印象深刻。Character.ai 和 Replika (AI 陪伴产品)已经成为非常成功的公司。还有许多 NSFW 聊天机器人在文本生成方面也相当有效。这些都是非常有说服力的机制。
在生产力方面,Perplexity 和 Glean(企业 AI 搜索)也证明了这一点。我之前在一家搜索公司工作过,我认为人们获取和学习信息的范式变化非常有趣。我们认为文本可能不是最后的媒介,信息图表或更有用的信息集合,或更具吸引力的互动方式可能会出现。
我们长期以来一直在投资不同技能的民主化相关赛道,无论是创意还是技术技能。在过去几年里,这在不同模态上都取得了惊人的进展,包括音频、视频、通用图像、媒体、文本,现在还有代码和完全功能性的应用程序。
所有这些公司的增长动力中一个非常有趣的点是,最终用户在很大程度上并不是我们这些所谓的“专业人士”。作为一个基金,我们的一个前提是,实际上存在着比我们想象更多的创造力本能,包括视觉创造力、音频创造力和技术创造力,这是一种潜在的需求。
AI 真的可以满足这种需求。举个例子,Midjourney 是这方面的先驱公司,很长时间没人理解它,因为外部观点可能认为:有多少人想要生成那些不容易编辑的栅格图像呢?这些图像在专业环境中无法完整使用。
但答案是:太多人了,而且应用场景非常广。
随着能力的提升,我认为我们会继续发现这一点。我们认为在这些不同领域中可以获得的质量和可控性范围仍然很深,在这方面,我们仍处于早期阶段。
如果我们处于AI浪潮的早期阶段,一个显而易见的投资方向就是 AI Infra,简单来说就是算力和数据。我认为现在对数据的需求也发生了很大变化,你需要更多专家数据,需要更多类型的数据。
之前,无论是公司内部还是投资人之间,都流传着一种普遍的观点,认为在整个 AI 生态系统中,价值主要集中在底层模型,创业公司似乎很难找到机会。
大家可能还记得一度很火的“GPT套壳”这个词,它几乎成了当时科技圈的主流说法。这个词背后隐含着一种观点:应用层没有价值,只有掌握了预训练技术,才能在 AI 领域立足,但这种说法本身是站不住脚的。
实际上,AI生态系统的机会非常丰富。我们看到,各种创新层出不穷,不同类型的模型各有所长,市场竞争激烈,开源项目也蓬勃发展。我认为,在测试阶段,模型的可扩展性被低估了,它能帮助我们更好地将用户价值与计算成本相匹配。
看看那些我们提到的公司,它们的产品层已经证明了自身创造和获取价值的能力。而且,要构建出真正优秀的 AI 产品,实际上是一件相当困难的事情。总而言之,我们认为,AI 生态系统的机会远不止于底层模型,应用层同样大有可为。我相信,许多实验室也认同这一观点。
这个世界很复杂,即使是 AGI 要应用到所有这些场景中,最后一公里的路程也很长。另一个很受人关注的讨论是:胜利成果究竟是流向创业公司还是现有巨头?
虽然我们有一些朋友和风投公司现在已经成为了巨头,但我们必须承认这里有一些偏见。在风险投资领域,有一些市场传统上被认为“太难”,就是说对风险投资规范来说是糟糕的市场,这种规范要求资本效率高、快速增长。
这些领域包括法律、医疗、国防、制药、教育等,任何传统风投公司都会说:这是个糟糕的市场,没人能在那里赚钱,很难销售,没有预算等等。有趣的是,如果你看看过去一年中真正有效的公司群体,其中一些恰恰在这些传统上不明显的市场中。所以也许我们比较乐观的观点之一是:AI 确实很有用。
如果你创造了一个全新的能力,使成本降低了几个数量级,那么实际上你可以改变这些市场的购买模式和结构,也许法律行业一直没有购买任何东西,是因为很长一段时间内都没有值得购买的东西。
这只是一个例子,我们也在思考,最后一个伟大的消费类公司是什么?也许是Discord或Roblox,就用户基数和参与度而言。直到现在,我们有了各种各样的 C 端聊天机器人,以及可能是下一代搜索。
正如Pranav提到的,我们认为社交、内容生成和游戏领域的机会是巨大的,而且是以一种全新的方式呈现的。最后,就我们关注的市场而言,我认为现在普遍认识到,通过AI你可以针对成果和服务而不是软件支出来销售,因为你是在做实际工作,而不仅仅是给人们提供执行工作流程的能力。
但如果进一步思考,我们认为许多服务都有弹性需求。一个经典的例子是,全世界大约有2,000-2,500万专业软件开发人员,但还是有很多用户对软件的需求没有被现有产品满足。
如果我们把软件和高质量软件的成本降低两个数量级,我们只会得到更多的软件,而不会减少从事开发的人数。至少这是我们的观点。
最后,关于在位者与创业公司的问题,主流观点是在位者拥有分销渠道、产品界面和数据。别费心和他们竞争了。他们会创造和获取价值,然后与客户分享一部分。我认为这只是部分正确。在位者确实有分销渠道,他们一直都有。
创业公司成功的关键在于,必须拿出更优秀或更具创新性的产品来竞争,可能还需要探索新的商业模式和分销渠道。尤其是在产品界面和数据方面,我认为深入理解至关重要。
这里存在着明显的创新者困境。你看那些占据主导地位的 SaaS 公司,他们通常按席位收费。但如果我为你的工作提供服务,我未必想按席位卖给你,我甚至可能减少席位数量。例如,为了实现 CRM 中的特定工作流程,我们可能耗费了数年和数百万工时编写代码。如果我不再希望员工每周五都填写数据库,那么这些传统的模式可能就显得不那么重要了。
因此,我认为这种沉没成本或在位者的优势,正受到新的用户体验范式和代码生成的严峻挑战。另外,我们在投资组合中还发现一个令人沮丧的事实:很多情况下,我们想要的数据根本不存在。想象一下,如果你想自动化某种特定类型的知识工作,你需要的是推理过程、所有的输入和输出决策——这听起来是非常有价值的数据。
然而,在任何特定领域,那些行业巨头从未保存过这类数据。他们有时可能只保留一个存储输出的数据库。所以,作为一家创业公司,当现有公司声称拥有数据时,值得思考的是:你究竟需要什么样的数据来提升产品质量?
总而言之,我们用“软件3.0”来概括这一系列变革。我们认为这是一次全栈式的重新思考,它将为新一代公司带来巨大优势。变革的速度对创业公司有利。如果说市场环境如熔岩般动荡,那么大公司要调转船头就非常困难。
现在,很多大型公司的 CEO 们都非常能干,但他们依然面临一个挑战:如何让数万员工在新范式下快速行动。市场机遇也发生了变化,那些我们认为有趣且潜力巨大的市场,比如价值万亿美元的市场,已经不仅仅是过去二十年那种替代型软件市场了。
因此,我们公司在计算资源上的投入比以往任何时候都多。他们在底层模型提供商那里投入了大量资金,同时也要考虑毛利率,以及从哪里获取数据。
现在是一个需要在产品方面极具创造力的时期,而不是简单地重复过去的工作流程。这可能需要彻底颠覆现有的流程。这是一个不同的开发周期。我猜在座的各位,可能都写过评估报告,比较过学术基准和真实世界的评估,然后发现结果和预期不符。这时,我们该如何让用户理解这些输出的不确定性,或者优雅地处理失败?
我认为这是一种与过去不同的产品思维方式。我们需要重新思考基础设施。在过去,云服务提供商和超大规模计算公司解决了软件开发人员的问题,一度似乎只需要前端开发人员就足够了。但现在情况不同了,我们又回到了硬件时代,需要获取、管理和优化计算资源。我认为这会真正影响公司的能力和发展。
所以,最后我想呼吁大家抓住这个机会,这是我们见过的最大的技术和经济机遇。我们为此投入了十多年的职业生涯。我们与底层模型公司有很多合作。我们认为他们做得非常出色,是非常好的合作伙伴,有时还是我们一些项目的共同投资者。
但我认为,他们在 AGI 和安全方面的使命,并不意味着经济的其他领域没有机会。世界很大,我们认为很多价值将通过解绑,最终重新捆绑的方式在世界各地分布,这在技术周期中经常发生。
所以,我们认为这个市场在结构上对创业公司非常有利。我们很高兴能与那些更有雄心壮志的创业公司合作。
对我们来说,2024 年的主题是“谢天谢地”,因为现在的创投生态对创业公司比 2023 年更友好,这正是我们所希望看到的。
文章来自于“随机小分队”,作者“随机小助手”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/