MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

11274点击 2024-05-24 14:51

和多数人一样，在看到 OpenAI 最新发布的「AI 智能助手」GPT-4o 时，MiniMax 创始人兼 CEO 闫俊杰的第一感觉是「惊艳」。他也为那些演示效果着迷，如丝滑的语音交互、实时的视觉理

解、语言捕捉甚至包括了「呼吸声」。

MiniMax 是行业少有的同时做模型、产品的公司。目前，MiniMax 是国内 AI 产品做得最出色的公司之一。其产品主要分为两类：一是「星野」代表的娱乐类，对标 Character.AI，目前处于国内

领先位置；一是「海螺 AI」代表的效率类，对标 ChatGPT，尚在起步阶段、但是他目前最看重的产品。

尽管 AI 在过去一年多引起了全球广泛关注，但它距离为普通人所用的未来还很遥远。闫俊杰做了一个演算，目前国内最好的效率类产品 DAU 只有 400 万、国外是 1000 万，这意味着 AI 在移

动端的渗透率可能不到 1%。从业者们要做的努力还有很多。

在 GPT-4o 发布会结束两天后，这位以神秘、低调著称的从业者，罕见地做客极客公园直播间，和极客公园创始人、总裁张鹏进行了近 2 小时的实时访谈。从这场发布会切入，他聊到了技术和

成本、行业赛点、开源与闭源之争、投流和 PMF、超级产品等关键问题。

以下是这次直播对话的实录，经极客公园整理后发布：

语音助理效果惊艳、

能提升用户渗透率，

且在技术上并不难实现

张鹏：你应该也是非常详细关注了 GPT-4o 和谷歌 I/O 的这两个发布会，它们的风格其实挺迥异的，你个人对哪个印象更深？更喜欢哪个？可以分享一下原因和理由。

闫俊杰：一方面，我自己其实是一个用户，会每天使用这些 AI 产品。另一方面，我自己又是从业者，所以有很奇怪的两种不同感受。

看 GPT-4o 的发布会的时候，作为用户来说，我觉得非常惊艳。特别是那两个演示，一个是（AI 听懂了）呼吸声，一个是拍照做一些事。我当时觉得为什么人工智能可以变得这么流畅，大家都

觉得实时的语音交互是第一次有人实现。这个事确实很成功的，非常显然 GPT 发布会的风口和传播量是大于谷歌的。用户肯定觉得 OpenAI 的发布会更震撼。

不过发布会那天晚上，我就开始想这个东西到底怎么实现的。大概想了半个小时之后，就觉得实际上是很直接的事。为什么？原因是，说话是比打字要慢很多的。比如说现在正常的语言模型，

基本上每秒可以处理的 token 是十几个到二十几个量级。但是说话其实每秒只能说 3-5 个字，大概只有 4-5 个 token。所以语音的速度是远远慢于现在标准的语言模型的处理速度的。

这个意思就是说，只要把语音的模态——就像之前做图片跟文本一样，只要把它对齐到语言模型上，把它改造成一个成纯流式的交互，这件事改造起来非常自然。

所以我觉得这件事体现出来两个事：第一，OpenAI 还是能够从非常底层思考这个事。第二，这个事的技术难度其实远小于 Sora 或者一开始 GPT-4 的技术难度，这就是我看 OpenAI 发布会的

感受。

张鹏：那看了谷歌的发布会你有什么感觉？

闫俊杰：谷歌的发布会不是看的直播，而是第二天看了完整的两个小时视频。它最前面是 DeepMind 负责人讲了很多技术的部分，这部分就很像是一个中年男人拖家带口来搞科研，一定既要满

足股东、又要满足用户、又要满足市场对谷歌的期待。

张鹏：还得不能让社会质疑你有 ethic（伦理）的问题。

闫俊杰：对，相当于画了很多目标，几千人的研发团队大概做了一年，做出来了很多东西。每一点应该都不是最好的，但是能同时做这么多东西，从芯片到产品都做，可能也只有谷歌有这么多

的研发力量能做。

但是我比较震撼的是它的 AI 搜索。AI 搜索在过去几个月很火，海外有 Perplexity，包括 ChatGPT 在内，以及国内很多助手，大家都会做搜索，甚至声称替代了传统的搜索。坦白说，我觉得目

前这些产品的搜索和谷歌展示的那一套 AI 搜索，还是有非常大的差距。

因为我觉得里面非常核心的东西，可能只有谷歌才有。比如很多实时的本地的信息，这些信息对一些高价值的场景其实有非常大的价值。如果我是用户的话，我其实非常愿意用这样的搜索，这

种体验绝对不会是在 ChatGPT 里外接第三方的搜索引擎就可以实现的。坦白说，我觉得这是谷歌真正的壁垒。

其次，目前大家用的其他的 AI 搜索产品里面，只有单步的推理，谷歌展示了多步推理，这对搜索体验的提升还是非常大的。这个事谷歌也是第一个做的。它本身不难，原来的语言模型能够支

持就好了，但是说明谷歌已经想得非常深刻了。

最后，可能是谷歌独有的优势。实际上包括 OpenAI 在内，几乎所有公司的视频理解都做得比较一般。甚至 GPT-4o 里面展示的东西，它的 Camera 其实处理的也不是 video，而是静止的图

像。真正能够做到非常流畅的视频理解，效果比较好的，好像只有谷歌。Gemini1.5 做的相当不错了。

我在想为什么这件事这么重要呢？为什么谷歌非得做这件事呢？其实也可以理解，原因是谷歌有大量 YouTube 的视频，但是这些视频无法被展示出来。因为之前的搜索只能有一个标题，或者

非常简单的标签。现在这个技术，就可以把这些视频加到搜索的结果里面去了，这是非常独特的一件事。

总体来说，我比较受震撼的是有了 AI 之后，真的可以把搜索这件事有质的提升，并且这件事谷歌已经走得非常靠前了。

张鹏：感觉我们大部分都是观众，看完发布会的「魔术」都「哇」一下，但你是「魔术师工会」的，你看完了会琢磨一下这个「魔术」怎么实现的。比如语音这件事看起来很厉害，但没有想象

中那么难实现。所以有人评价说，OpenAI 这次主要是工程上的进展，它选择了一个明确的目标、甚至可能针对发布会的场景做了很好的想象，然后它的工程能力配合技术能力、完美的把这个

点打爆了。而不像上次 Sora 那样是技术的本质变化。这么理解对吗？

闫俊杰：可能不同的人对系统、算法、工程的理解都非常不一样，我说一下技术上的理解。

虽然我也不知道 OpenAI 具体是怎么做的，但我猜 OpenAI 的语音技术可以分成两步：第一，用大模型做语音的合成。第二，把大模型的语音合成和语言模型合在一起。第一步其实去年有了非

常多进展，但问题是在做交互的时候，要先把声音变成文字、再用语言模型生成回复、再用这个模型来跑一遍。

张鹏：当时不是端到端的实现，而是要分几步。

闫俊杰：对，这个会造成延时和信息丢失。这次 OpenAI 就更进一步，直接把语音模型和语言模型合在一起了。

这在技术上是比较容易做的，因为声音和语言模型都是 Transformer 的模型，本质上就是把声音模型的 incoder（编码器），对齐到一个语言模型上去。这个事在图片里面已经发生了，现在只

是把图片换成了声音。而且因为声音的处理速度远低于文字处理的速度，所以改造成流式是非常自然的。

这带来的结果是，原来 ChatGPT 的语音交互、包括海螺 AI 的语音交互，大概延时会有两秒。现在纯流式了，延时只有 300 毫秒，就是说一个字的时间。

张鹏：所以这种语音技术路线其实并不难、而且很早就被证明是可行和明确的，这是否意味着它不会是 OpenAI 的独门技术，而是可以迅速扩散到更多的公司？

闫俊杰：我觉得如果一个公司或者组织，它之前能独立做好语言模型、并且能独立地做好利用这种 LLM 方式做声音的模型，如果这两个都具备了，把它合在一起是相对比较轻松的。不过这背

后还涉及到很多工程链路上的优化。

但比较核心的还是你的目标是什么。比如 OpenAI 为什么要把语音延时降到 300 毫秒，本质上是因为在移动端，每当你降低延时、对用户体验就会带来特别大的提升。为什么线上会议没法替代

线下见面，核心就是它有几秒的延迟。而延时优化的极限就是一个字的时间，300 毫秒，你在这个目标下最后就会推出来最合理的技术路线。

张鹏：延时的问题我很有感触，之前有声音赛道的创业者跟我说，如果延时超过一秒，用户就会发现对方跟自己不在一个地方聊。所以语音助理没有延时之后，你感觉它从云端，走到了你房间

里，这个感觉给人的冲击感是非常强的。它对用户体验的提升有多强？语音是否会成为主流的交互方式？

闫俊杰：过去一年非常明显的变化是在车里面，你可以看到新能源车里的语音渗透率是显著变高的，这说明在一个场景里，如果你能够把语言的交互做得非常好用、且有实际价值，它的用户渗

透率就会变高，至少在智能车舱里面已经实现了。这个事在现实生活中也会是一样，这也是为什么 AI 公司会越来越重视声音交互的原因。

过去一年大模型虽然是非常热的词，但现在全球每天使用 AI 产品的人只有四千多万，而这四千多万里有三千多万在用 ChatGPT，而这三千多万有两千万是用 Web、一千多万是用手机。而现在

全球每天使用手机的人可能有 4 亿人，所以 AI 在移动端的渗透率可能不到 1%，这是非常低的数字。真正主流的产品，比如说短视频、或者长视频、或者社交，它的渗透率应该都是 50% 以

上。

我觉得未来有志于做 AI 产品的公司，一定要思考一个逻辑，那就是怎么让用户渗透率变高。其实唯一的方式就是让更多的场景可用、让更多的人可用。我觉得声音应该是符合这个趋势的，它

可以让一些不方便打字的人进来、并拉来更多场景。这是 AI 公司提高渗透率的一种努力。

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

在 OpenAI 发布会上，研发人员与 GPT-4o 对话｜图片来源：OpenAI

张鹏：你觉得它是会增加存量用户的黏性、还是获取更多增量用户？

闫俊杰：这两个事都可能会发生。我们发现很多场景确实只有语音才会发生，举个例子，比如说在海螺 AI 里面，很多家长会让它给小孩讲睡前故事。这显然扩充了使用人群。

再比如，我们发现有很多用户会用它来学英语口语。从这个维度上来说，它应该是提升了用户的活跃。还有我自己亲身的例子，我今天春节回到老家看我外公，他已经 80 岁了。他在很破的安

卓手机上装了海螺 AI，会跟它打很久电话、讨论历史人物。之前你很难想象一个 80 岁的老人会这样用 AI。

而他们在用这个产品的时候会真的把 AI 当成一个人，比如他会说你（AI）声音能不能大一点，其实潜意识里把它当成人了。

这也是我们为什么那么相信通用智能的原因，它就是服务普遍人的东西。问题是整个行业的渗透率确实没那么高，更简单的交互是很重要的一方面。

张鹏：你说过自己很早就坚信多模态，是因为产品每扩展一次模态、都能扩展一批新的用户。你预测 ChatGPT 改善语音技术之后，它的 DAU、用户时长这些数据会有什么变化？

闫俊杰：实际上现在没法猜，因为它还没有上线。我觉得使用时长会变长，但是用户渗透率会不会有显著的变化，我其实比较怀疑。

张鹏：语音交互确实对人有门槛的，很多上一代做语音交互的朋友们复盘过，大家打开一个语音助理之后会突然不知道说什么，然后就停了，这件事跟技术其实没有关系。它其实需要用户有比

较强烈的目标和意愿去用。

闫俊杰：对，我觉得对年轻或者比较年长的用户会更友好，对中间的用户反而不会。原因是因为，愿意使用 AI 的人、或者听过 AI 的人，大概率至少试用过一些东西了。

多模态融合是大模型行业「必答题」，

决定效率类产品的成败

张鹏：你自己也在大模型领域创业，各项技术能力都在主动跟 OpenAI、谷歌做对标。看完这两场发布会之后，你感到的更多是一种兴奋，还是一种挑战？

闫俊杰：我觉得有人跑在你前面是好事，这说明这个行业上限远远没有到。

我个人是非常期待 OpenAI 会出 GPT-5 或者其他的东西，即使作为一个业内人士，我也是希望 OpenAI 进步速度能保持这么快。反正也没有竞争，实际上没有任何的竞争。但是这不是因为不想

跟他们竞争，是他们太强了，构不成竞争。

至少目前，真正把算法汇成产品，真正开拓 AI 行业边界的，主要还是 OpenAI，如果他们能够非常快地开拓 AI 的边界，至少说明 AI 的用户渗透率是有底层动力的，而且这个动力可持续的。

OpenAI 可能比中国公司多 10 倍的研发资源，如果他们都做不出来创新，这才是这个行业比较可怕的一件事。

张鹏：你有方法、有路径，有计划，未来可以在你们的产品里见到跟 OpenAI 今天类似的用户体验吗？大概多长时间可见？

闫俊杰：首先我觉得这个事肯定可见的，虽然他们怎么做的我不知道，但是我觉得我刚才的分析应该是对的，至少那种方法可以实现，至少它是有一条比较明确的路径。

其实对我来说，主要的挑战不是语音模型，主要还是把语言模型做得尽可能好。真正的原因是因为，现在的多模态实际上还是以语言模型作为核心的。今年我们在做上一版 ABAB6.5 的时候，

我们其实把万亿量级的 MoE 这件事做通了，这还是个语言模型。

另外，我们在去年的时候，每个模态都是独立的，虽然它们有同样一套框架、里面都是 Transformer，代码也是差不多的，但是它的数据和模型是独立的。现在我在设计下一版的模型，我们下

半年的核心考虑是如何能够能有一个上限更高的语言模型，以及把这些不同的模态合在一起。

我们还没有完全设计完，还有很多的实验需要做。但是它基本上已经是可见的东西了。接下来这个模型会分成两个阶段：第一，设计阶段，有很多假设，你要做很多实验验证你的假设。第二，

假定，你认为你的假设验证得差不多了，把这些东西合在一起，最后训练这个模型。

这里面的 trade off（权衡）是说，你的这些假设，或者你设计的这些预测实验，到底要做到多好？这是我们正在经历的一个事。

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

MiniMax 旗下的效率类产品「海螺 AI」｜图片来源：MiniMax

张鹏：最近听到谷歌提的比较多的是 One network Moti-modelity，多模态是在一个神经网络里实现的。现在 MoE 在训练万亿大参数的模型上是非常有效的方法，但下一步如果做多模态融

合，方法上会跟以前有什么不一样吗？

闫俊杰：这个是两个维度，第一个是中间这步都是一堆巨大的 transformer，为了提升效率，不管训练效率还是推理效率，大家主流的选择都是一套 MoE，比如 GPT-4。据传 Gemini-1.5 也是长

这个样子。如果你做一个大概几千亿参数的模型，基本上这就是必然的选择。

第二个，你有不同的模态，怎么样能够合到这个大的以 MoE 为基础的主干模型上，这就是多模态。现在已知的东西是，怎么把视觉的理解跟主干模型合在一起，比如说像 GPT-4v，你先有一个

巨大的 MoE，再把视觉的东西对齐，就可以有比较好的视觉的理解。

未知的东西有这么两个：

第一，GPT-4o 里面展示的，把声音也对齐到里面去，这是 GPT-4o 干的其中一件事。

第二，生成的这部分，比如说图片的生成、视频的生成能不能合进来。至少现在，视频是没有实现的，比如说 Sora 是独立的模型。为什么会这样？原因是视频的 tokenizer（标记）是有损的压

缩，基本上要通过 diffusion（扩散）才能恢复到一个比较正常的状态，现在还没法整。当然会有很多人做，可能明年才会整合一起。但是视频的生成目前还不知道怎么整合的。

图片的生成我不知道，比如说在上一代 DALL-E 3 的时候，其实也没有整合在一起的，也是独立的模型。但是这次看 GPT-4o 的话，我感觉它们似乎整合在一起了，但是我不是特别确定。我觉

得基本上底层的技术就是这样了。

张鹏：那么紧接着多模态统一融合的能力，会不会成为下一个阶段大模型领域、尤其是中国的创业公司们要去提升的目标？这是不是所有人都必须要跟上、必须要解决的问题？

闫俊杰：我更觉得是必须要做的事。其实这分两个产品，目前 AI 产品有两种，一种是满足娱乐需求的，一种是满足效率的。娱乐的不说了，是运营的属性、产品的属性，更加偏综合产品能力

的事。

偏效率的一定是需要做（多模态）的，因为从历史上来看，所有效率的产品基本上最终大家只会用最好的。比如说有两个产品，一个可以做很多东西，一个只能搜文字，那大家一定会用那个啥

都能做的那个产品。当然这个前提是说，这个（多模态）赛道是存在的。关于这个赛道是不是存在，其实也是需要很多努力的。

张鹏：可不可以理解为 Sora 是「选答题」、可以不选，但是多模态的统一融合是「必答题」、如果答不好就会出局？

闫俊杰：我觉得你这个概述还是挺好的，之前没想到这样，确实更像是一个必答题。

Sora 这个东西其实有不同的用法，比如说有 PGC 的用法、作为工具属性的用法，也有 UGC 的用法、会涉及很多产品、内容的东西，不是 AI 都要做的东西。

但是在工具类、效率类、助手类的产品上，只要有公司做出来（多模态），其他公司必须跟上。因为基本上就这么点技术。

「智能语音助理」争夺战，

巨头和创业公司是复杂的竞合关系

张鹏：这次我们看到语音助理这个事，苹果想用到 Siri 里、谷歌想非常深层地用到安卓体系里，似乎它会是个很重要的入口级的东西，这个事最终会是巨头的 Game 吗？创业者还能干吗？

闫俊杰：首先，这个产品的所有用户体验几乎都来自于模型的能力。它不太取决于产品是巨头的产品、还是创业公司的产品，只是取决于背后是什么样的技术水平。它考验的是你能不能做出一

个体验最好的模型。这里面涉及到你的技术模型怎么做、怎么做很好的对齐、怎么优化你的延时，怎么提高工程的效率、怎么降低计算成本等等。

其次，在商业层面，这个产品背后肯定要消耗成本。因为现在的 AI 产品跟早期移动互联网产品的本质区别是，以前我们不需要考虑每天维护用户的成本，现在我们都要考虑。所以这一代产品

怎么变现是比较直接的。而手机上产品的商业价值有多大，几乎取决于它有多长的用户时间，因为用户时长总是有标准化的变现手段。

这样的产品，假设它能做到大部分的需求都在里面解决，比如说当我想要搜索的时候，我不需打开百度了。或者我需要看一个视频的时候，不需要在抖音里看了。只要它占有用户足够长的时

间，那它的商业化效率就是足够高的，它的商业化跟时长是成正比的。

这个事最终会变成，产品的竞争力取决于技术能力，商业竞争力取决于你占有多少用户市场。

张鹏：我再具象一点，苹果属于完整的从硬件到软件的掌控者、安卓在操作系统上有天然的优势、OpenAI 是新型的基于大模型能力的创业公司，如果未来这三家公司都在抢占语音助手这个最

关键的入口，谁更有可能是赢家？创业公司能赢得这个位置吗？

闫俊杰：我觉得这里面有各种各样的博弈、竞合关系，在搜索里已经发生了。我们能看到苹果里集成了谷歌的搜索，谷歌每年给苹果很多钱，为什么谷歌愿意付钱？显然因为谷歌在苹果里做搜

索的商业价值，要大于谷歌自己付的钱了。

但是我觉得不管怎么样，如果看第一性原理的话，那在这里面如果谁能把东西做出来、并且把体验做得显著地好，那至少在里面你应该会有一席之地。

这件事我觉得更利好于拥有设备的公司，为什么？比如说我买一个小米的手机，只要给小米付一次钱，之后这个小米手机创造多大的价值，其实都跟小米没有关系了。唯一有关系的是，小米商

店里面的分发里面会有分成，其他的基本上没有关系了。

张鹏：也有一些负一屏的内容广告，都是比较薄了。

闫俊杰：负一屏的内容水平显然是没有抖音或者小红书高。其实手机提供了很多用户时间，比如说我在小米上装了一个抖音，一个用户在抖音上花了很多时间，但所有的钱跟小米一点关系没

有，都被抖音转走了。

我觉得一个比较强的 AI 助手的好处是说，它确实能够让手机的操作系统这层占领很多用户的时间，因为可以满足很多多样化的需求。这个事相当于是说它其实是把很多价值从 App 里拉到手机

上。

张鹏：最近我们也看到传闻，苹果跟 OpenAI 有可能在智能助手这个层面产生合作。所以按照你的推理，一家在大模型里做的非常优秀的公司，和一个对生态硬件、软件有掌控力的手机巨头，

最终大家合在一起、在未来的生态里产生新的价值分配，这是符合逻辑的？

闫俊杰：对，实际上就是用户时间的分配，而这又考验背后的技术和产品能力。

张鹏：反过来说，如果 OpenAI 没有跟苹果合作，而是成为最强的 Super APP，作为独立的力量去挑战现有的生态、甚至对原有价值链进行重构，你认为存在这种可能性吗？

闫俊杰：这主要看它的规模。现在 1000 万 DAU 的 APP 显然不够格。到 Mata 这种 10 亿 DAU 量级的，估计会有本质的变化。但即使是 OpenAI，距离这个也有 100 倍的距离。

张鹏：现在想着做所谓大一统的 Super App、超级入口还是很难实现的，今天更现实的是怎么把 DAU 从一千万涨到 1 亿，这也是 OpenAI 很头疼的事。

闫俊杰：我猜这也是它们为什么这么在意语音的原因，因为这个东西确实有可能会提高渗透率。

投入通用基础大模型、

打造通用产品，

才能看到真正的未来

张鹏：前段时间在整个创业者的圈子里，大家围绕基础模型和开源模型争论很大。本质上是说，你要么自己做一个智能引擎，要么就买一个自己改。其实模型、产品双轮驱动，自己同时做基础

模型和产品，滚动着往前走是最好的。但很多创业者说这风险很大，模型的一次迭代跟不上、或者产品 PMF 的一次失败，就不行了。你怎么看这两种路线？

闫俊杰：我觉得这本身是风险很大的事。先不说同时做模型和产品，只做模型、或者只做产品，本身就是风险很大的事。

张鹏：创业其实就是生死游戏。

闫俊杰：对，确实是很残酷的事。比如我们看美国的公司，OpenAI 是都做，Aanthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了，我不知道是不是它们也有可能做产品。我觉

得至少对做模型的公司来说，自己做产品几乎是必然的选择。我们算是比较坚决的，有些公司后面变成这样了，这是必然的。

反过来，其实对做产品的公司也是一样的。比如说我们国内的开放平台上，有很多做产品的公司和客户，其实规模还挺大的，大概有接近一千家。这里面有大的公司，也有小的创业公司。其实

坦白说，对所有这些公司来说，如果它们的产品得很大，他们也希望自己掌控模型的。这也是必然的一个路。

所以这里面核心的考虑还是说，如果你觉得这件事是对的，本质上是说你现在有多少资源、最大化优化你们想优化的目标。对我们来说，我们的目标是要最大化地优化用户体验，那我们觉得这

两个东西（模型、产品）都是重要的，只能两个东西都做，才能最符合我想优化的目标。

不同的人定义的目标不一样、路径不一样，就会出来很多不同的公司。

张鹏：所以产模一体归根到底是我们追求的最终目标，只是很多人基于今天已有的资源，会发现烧钱太高、风险很大，但这只是阶段的选择问题。

闫俊杰：还有一个更底层的原因。举个例子，假设有个需求要满足，而这个东西需要通过模型来满足——那如果是（模型和产品都在）一家公司，你的路径是优化这个业务指标就可以了。但如

果（模型和产品是在）两家公司，你们干的事是把这个指标转成一个对模型的要求，让给你提供模型的公司优化这个指标。

这中间本身损失了很多信息，并且让周期变长。这个事一定不是最大化业务指标的方式。

当然这个事上，微软例外。核心原因是，微软的这些场景，Bing 的搜索、还有 office，其实都是一些能够变得非常标准化的东西，基本上主要依赖于模型的通用能力。OpenAI 的通用模型是最

好的，那就可以给这些产品用。在这种情况下（模型和产品分开）是合理的，但是大部分情况下不是最优的选择。

张鹏：你提了一个非常好的问题，就是我们到底是要根据模型能力造产品，还是要根据产品目标去改模型？我打个比方，如果模型是一把枪，产品是靶子，我们今天到底是要造更通用的机关

枪、在更多领域命中靶子，还是应该造一把高精度的狙击枪、就打中某个具体的靶子？

闫俊杰：其实这个事背后有一层含义，咱们讲这个时间点，AI 背后是有一些技术红利的。这个红利是说，全世界有这么多聪明的人、这么多资源、这么多社区在做这件事。这件事的价值或者能

力远大于单个公司，也大于 OpenAI 的，显然也大于任何一个中国的创业公司。

所以一家公司的研发水平不是一家公司封闭做出来的，而是这家公司的自身能力加上整个行业整合出来的。只是不同公司利用的效率不一样。包括 OpenAI 在内，它们很多的东西不是原创的，

可能是谷歌做出来的，但是它们把它很好的整合在一起，扩大规模，就变成现在的状态。

其实把模型做通用这件事，是一个比较容易来吸收到整个社区进展的途径。这件事本身是有巨大的红利的。

张鹏：今天你应该站在那个位置上，把更多的能力拿出来，让更多的人跟你共创，也许是用户、也许是产业里面的其他创业者兄弟们，OpenAI 有这样的感觉。但如果今天你只是做某一个产

品、维系你自己的「菜园子」，你可能失去了世界与你共创的机会。

闫俊杰：客观的说不是世界与我们共创，是我们与世界共创。

张鹏：我看 Sam Altman 也不断提醒，大家不要基于今天模型的一些具体问题去打补丁，这其实是浪费时间。因为技术在滚滚向前，你在这个时空刚把补丁打完，这件衣服可能都已经换了，会

出现这样的问题。

闫俊杰：客观上说能够做什么产品，其实是由技术的周期决定的。

比如说目前这一代，我们见过的所有产品基本上是以文字的交互为主，产品的功能基本上是助理这个层面的。不管是娱乐还是效率，基本上都是 copilot（辅助助理）这个框架。只是不同的人基

于不同的理解、不同的资源、不同的团队，组成了不一样的东西。

假设我们有更好的模型，能力比现在再显著地提升，比如所有的测试都可以做得非常好，它可以独立来工作了，就不是一个 copilot、可能是一个 auto-pilot（全能助理），这显然会产生更多完

全不一样的产品形态。

但是这个东西不是产品设计出来的，而是当你把技术 Push 到某一个阶段的时候，这个产品自然就清楚了。

技术成本两年内可能降 100 倍，

这比探索技术上限容易多了

张鹏：我想把话题延展到很具象的东西，前些天我跟投资人算了算账，今天千万级 DAU 的产品，恨不得一天花掉 200 万的成本，很高的。比如今天 GPT-4o 如果容纳了更多用户、获得了更大

的用户粘性，它每天的成本得有多高？你肯定掌握一些成本结构的判断，能不能帮我们算一算？

闫俊杰：其实语音比文字便宜的，因为语音慢。比如文字一秒要生成 20 个 token，但语音一秒只有 4-5 个 token。而且人听的时候也慢，我看一千个字只需要一分钟，但是我听一千个字应该是

很长的时间。

所以假设使用相同的时间，语音其实更便宜的。

张鹏：这挺反常识的。

闫俊杰：你觉得声音更贵，其实更便宜，这是第一点。

第二，优化或者降低成本一直是学术界非常经典的研究领域，很多年前我自己也在这个领域做了很多工作。但它实际上不是业界最高端的领域，最高端的领域一定是说如何拓展技术的边界。

一旦你能够拓展技术边界之后，怎么把成本降低 10 倍这件事，其实从最早的机器学习时期，比如我当年读博士的时候，到 2012-2022 年这 10 年用 CNN 来做（卷积神经网络）的时代，怎么

来量化、减值、增流是有一套非常标准的 pipeline。

在 Transformer 这一代里面，其实也可以复用上一代的 pipeline。比如说做量化；比如说当你有一个非常长的 context window（聊天框）的时候，如何做缓存，效率更高、时间更低；比如说如

何优化你的 attention（注意力）……有很多方法来做这件事，这其实是没那么难的东西，你只需要把每步做得足够好，拼在一起就会带来很大的变化。

张鹏：也就是说，相比于探索新大陆，现在掘地三尺把矿挖出来其实挺容易的？

闫俊杰：这个事我们想一下就知道了，比如说去年 3 月份刚有 GPT-4 的时候，那个时候又慢又贵，但是我们现在其实看 GPT-4o，包括之前的 GPT-4turbo，又便宜又快，效果又好，这只是过

去一年发生的事。价格可能降了 10 倍，但实际上 OpenAI 比这个价格的降低还要更多。

我们大概算过，如果有两年的时间，成本可以下降近 100 倍。其实我觉得，技术的上限这件事相对来说没那么确定，需要更多的探索。但是成本下降这事，一定是有办法的。这个事在学术界已

经发生了三次了。

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

GPT-4o 成本｜图片来源：OpenAI

张鹏：今天有的人在拼命地优化技术成本，有的人在拼命提升模型能力、想做到最 top，在你看来后者是不是更重要？

闫俊杰：我觉得从结果上来是这样的，但是从过程上两个事是相互转化的。这个其实是大模型里面一个非常重要的规律是，效率跟效果其实可以相互转化的。

假设训练精度一样，而你的算力是别人的 1/10，这意味着你能把效率做得很高，那你一定是能够把模型的上限变得足够高的。或者反过来说，如果你想要能力达到那个足够高的上限，那你一定

只有把效率变得非常高，这个事才有可能。

所有人的资源都是有限的，一定是你的效率足够高、你的上限才能更高。实际上并不是我先冲到边界后再来做优化，实际上两边是要一起做的。

这也是为什么大部分研发越往上越难的原因，它要求你综合考虑。

张鹏：所以 Sam 说「给我多少万亿、我就能把 AGI 迅速实现」这种话，是不是太不现实了？

闫俊杰：如果类比的话，比如台积电现在是 7 纳米，那他接下来肯定是 5 纳米、3 纳米、2 纳米一代代往下做。他不可能把 5 纳米、3 纳米都跳过了，突然间说自己能做到 2 纳米。我觉得这个

不太对，你很难把中间几步跳过去。

张鹏：远大的目标还是要一步步走，不能奢望直接通向目标，这也是创业的本质。

闫俊杰：当然可能它们太强了，我没有理解它们的精髓之处。不过正常情况下应该是这样的。

国内 AI 产品不得不投流，

还是技术没有拉开足够差距

张鹏：说到成本，前段时间我们看到，业界 AI 产品都开始投流了。我感觉以前移动互联网时代，大家好歹是产品达成了 PMF 之后以后再投流放大，而现在产品需要花钱来测 PMF。一方面整

个中国互联网流量板结了，都在巨头这。另一方面 AI 的能力有限，没有办法直接推到用户面前。这种投流导致的 PMF 成本上升，对这一代 AI 创业会不会是很大的挑战？

闫俊杰：我们在这个事上吃过亏的。你发现这个事在中国，和在美国非常不一样。比如美国的产品，ChatGPT 显然没有投流的，最早期的 Character.AI 也是没有投流的。偏工具的东西，比如

像 Midjourney，它显然也是没有投流，更多的是运营。但是反过来说在中国，基本上所有的产品都会投流，这其实是非常明显的差别。

相当于说，美国公司更多的是靠技术能力和产品能力，大家都不会投流。但是这背后其实也是有代价的，代价就是美国的研发成本还是会非常高的。在中国反过来了，中国工程师的红利和产品

的红利相对比较充裕的，但是中国的流量是头部聚拢的。

但是投流更底层的原因还是因为，目前为止在助手类的产品上，没有哪家公司能拉开差距。大家在同一个维度上，产品比较同质化，技术能力相对也是比较同质化的。为了获取更多用户，只有

靠投流，这是目前这类产品的困境。

这个东西大家都会有一些解释，比如说有一种人认为获取 query（用户询问）是比较重要的事，如果把 query 本身的价值换算成钱的话，投流是值得的。就看你怎么看这件事了。在技术不突出

的时候，这个东西就是没办法。

张鹏：我觉得你选择了某种「简单」，就是把技术做到最好、绝对的领先，这个世界也会变得简单。如果你不能在这件事上简单地领先，世界就会对你变得复杂。你也不会省下多少成本，没准

成本更高，无非是押在这还是押在那。

闫俊杰：对，所以我们没有认为要花钱买用户的 query。

我觉得 PMF 这件事是这样的，一般创业的时候要写 BP（商业计划书）讲你的 PMF 是啥，我们其实一开始没有搞懂这件事，目前也没有写。其实我觉得可以做一些假设：核心就是类似这种产

品，只要有用户时长就能变现。本质上，PMF 是以用户时长来量化的，这是比较标准的东西。目前这类产品是没有变现逻辑的，但是如果这个东西能做的更大，或者能够做到某个状态，是能

够出来一些东西的。

张鹏：其实我觉得在不同的阶段，大家需要面对不同的东西，并不是说有技术的纯净信仰，就一定要做 PLG（产品主导型增长）、就绝对不要投流。我也想到当年滴滴在很多的城市都没有

PMF，都在烧钱，结果有一天它突然把用户习惯和产业逻辑烧出来了，PMF 出现了。你觉得 AI 行业会走跟当年网约车一样的路吗？

闫俊杰：我觉得不是，因为其实网约车是非常典型拥有网络效应的业务，如果你有更多的司机、你就会有更多的用户，反过来也是一样。

大模型产品目前为止没有网络效应，有可能有微弱规模效应。不过还是需要拆成不同的产品类型，比如效率类、娱乐类，单独来看。

比如单纯在效率类产品上，用户体验的提升主要不是看用户是不是变多了，其实主要是看研发速率、模型迭代效率。相当于说，你的技术能力提高跟你的用户数量增长，其实不完全成正比。但

在星野这种娱乐类产品上，如果你有越来越多的内容，规模效应还是挺明显的。

张鹏：我觉得今天的创业确实比移动互联网那一代更加不容易了。今天你去投流，所有的流量基本上在巨头手里，甚至你的 PMF 在它面前都是透明的，因为你不断地投就说明你找到 PMF 了，

它随时可以跟。创业者一直在打明牌，巨头钱多、人多，也有流量，你做产品测试还要给它们「交税」，这就是这个世界非常真实的真相，你作为创业者怎么保持自己的希望？

闫俊杰：这确实是非常关键的问题，而且是一个很本质的问题。

我觉得偏信仰层面是这样的。如果你没有做很多的技术创新、产品创新，或者说没有在合理的时间内找到足够的非共识，这个事就不应该你干，就是该被大厂干。这不怪大厂垄断。

我们要思考的是你作为一家独立的公司，你真正能创新的东西在什么地方？是研发效率、认知、产品体验还是什么？你如果没有，创业就应该失败，也不能怪别人。

张鹏：很务实的想法，大厂的竞争反而能验证创业公司是不是真的有价值。

闫俊杰：是的。不过国内的流量被巨头垄断，但海外的流量其实相对比较开放，至少很多市场可以自由竞争。所以我觉得虽然很难，但是空间还是存在的。

虚拟社交比智能助手受欢迎，

但 super app 可能并不诞生其中

张鹏：说到产品，MiniMax 也是国内 AI 产品做得最早、最好的公司之一，能不能介绍一下你们「星野」、「海螺 AI」这两款主打产品？它们的发展情况怎么样？

闫俊杰：「星野」基本是一个主打 fantasy（想象）的产品。你看它的时长、用户分布、包括留存数据，其实它很像小说类的产品。

像「海螺 AI」这种，我们叫它智能助手，但其实它是没有定义的。原因是目前这类产品最大的都只有 400 万 DAU，不能算很大的产品，不太能定义这个行业。

我们的 fantasy 产品算是做的比较领先的，就用户量来说，它可能比助手类产品要高个 100 倍。我们的助手类产品才刚起步。

张鹏：fantasy 产品这么好，它的交流轮次、使用时长怎么样？

闫俊杰：我觉得挺夸张的，是很长的时长。

张鹏：为什么当年你会做「星野」这种 fantasy 的产品？当年的决策逻辑是什么？

闫俊杰：两年多前我们创业的时候，大模型还不是共识。我们当时认为把人工智能做成通用、服务大众这件事是很重要的，而且恰好看到非常明显的技术拐点，所以就开始创业了。当时，我们

也不知道技术会变成什么样、产品会变成怎么样、商业化会变成怎么样。

「星野」的前身是「Glow」，我们当年做「Glow」的时候既没有 ChatGPT、也没有 Character.AI。当年我们不是做了很多分析、发现了机会，决定要来做它。我们的产品都是撞出来的。

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

MiniMax 旗下娱乐类产品「星野」｜图片来源：MiniMax

张鹏：所以是先有了对 AGI 的信仰，做出了模型的能力，再顺着模型能力看能做啥就做啥，是这个逻辑吗？

闫俊杰：真实的情况是这样的。为什么这个产品最后变成了「Glow」了、没有变成 ChatGPT，是 2022 年 10 月份我们当时第一版的模型大概只有 30B（参数），它只能做娱乐的事，因为没有

那么好。

张鹏：你得把 hallucination（幻觉）当作它的优势，而不是缺点。

闫俊杰：实际情况是，最开始的时候我们只有一个 pre training，对齐还根本没有跑通。所以这种东西是撞出来的，是非常随机的一件事，就变成这样了。

如果我们那时候更强一点，可能能做出来 ChatGPT，但是很遗憾，那个时候能力就是没有那么强。

张鹏：创业归根到底还得看实际状况，当时你技术没准备好，做不出来很正常，这反而说明了为什么技术是 AI 产品最重要的部分。

闫俊杰：对，因为技术的发展就是有红利的。

张鹏：现在你们有了「海螺 AI」，是不是还改过名字？我记得去年你们还叫「海螺问问」？

闫俊杰：的确是，我们改名是想让产品更加大众化。首先，我们觉得「海螺问问」有 4 个字，减掉两个字之后，「海螺 AI」的用户覆盖率会更高。其次，我们发现用户更深层次的需求不完全来

自于问答，所以叫了这个名字。

张鹏：更深层次的需求不只是问答，所以那时候你们已经开始往未来的「智能助理」方向做思考了吗？

闫俊杰：是的。

张鹏：随着 GPT-4o、Astra 的发布，「智能助理」这个领域可能会有越来越多竞争者，你怎么看这类产品的发展目标？

闫俊杰：这类产品核心的东西应该就是一个，提升用户解决问题的效率、或者说回复的满意度。

我们客观来看，比如你问 ChatGPT 一个问题，它有多大概率给你一个满意的答案？我们自己的测试结果是，只有 60%。这也是为什么 AI 的用户渗透率只有 1% 的原因。可能只有对 AI 特别热

忱的用户，在它给了你无数次错误答案的时候，你还能选择相信它、容忍它、甚至引导它来得到一些答案。

举个例子，我们用更大用户量级的产品，比如百度搜索、小红书搜索、甚至抖音搜索的时候，大概率能得到想看到的东西，满意度显然比 60% 高。只有这样，产品才能走向更广大的用户。

这也是作为从业者来说，我觉得 GPT-4o 没有让我觉得那么好的原因。因为它其实并没有提高这类产品真正重要的指标，也就是用户满意度。这个指标如果从 60% 提升到 90% 甚至更多，它就

能变成可以信赖的产品。这也是我们在「海螺 AI」这个产品上要努力的方向。

张鹏：我相信最终你们的目标还是想创造 Super App，或者用 AI native 的方式解决主流用户的大问题。你觉得今天不管像「星野」、还是像「海螺 AI」，它们会是 Super App 的侯选吗？还

是说我们今天未必能看到 Super App 的最终形态，它会像你说的，随着未来技术的发展随机涌现出来？

闫俊杰：其实我们的基本假设是这样的：第一，现有的产品都不是。第二，我们认为现在的单个产品都能够长到足够大的用户规模，能给用户带来更大的价值，也能为我们带来商业上足够的成

功和回报。这也是我们努力的目标。

至于说现在的产品到底是不是最终那个 Super App，我觉得其实是不重要的。为什么？因为 AGI 是一件长周期的事，显然不是 2024 年或者 2025 年就实现的，我们其实不需要给自己特别大的

压力。

我们真正需要做的事是，让技术能够足够快地进步，同时基于当前技术能力做出的产品，能让公司的运转效率变得更高、能给用户创造一定的价值、能给公司创造商业回报。同时，我们还能有

能力做更多的产品，一代一代往上滚，这就已经够了。

美国公司不一定是这样的路径。但作为一家中国公司，这至少是有先例可寻的一条路径。

人工通用智能（AGI）的技术力量，正以前所未有的速度重塑着产业格局，基于此 Founder Park 决定发起一场寻找中国 AGI 创新 1% 的行动：

中国最具价值 AGI 创新机构 TOP 50 调研启动征集！

中国「+大模型」先锋案例 TOP 10 调研启动！

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

文章来自“Founder Park"，作者：张鹏、黎诗韵

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

关键词: AI应用 , MinMax , 闫俊杰 , AI智能助手 , 海螺AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales