三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

8031点击 2025-05-28 14:26

去年行业信仰强共识，今年大家寻找非共识。

预训练还是不是王道？如今AI行业，这是最大的“罗生门”事件。

2023年，模型预训练，还是第一性原理。然而，从OpenAI前首席科学家Ilya公开喊话“预训练已走到尽头”，到聚焦强化学习的DeepSeek R1出圈，又昭示着预训练风光不再。

从人人追捧，到口碑滑坡，预训练境遇的变化，是AI行业“共识”与“非共识”不断流动的一个缩影。

针对AI技术的共识与非共识，2025年5月27日的“技术开放日”上，蚂蚁集团攒了一个交流局。

圆桌对话的参与者，是当下最热的创业者、技术高管和学者：

曹越，视频模型公司Sand.AI创始人，前光年之外联创。2024年7月完成两轮融资后，公司估值已经超过1亿美元；

林俊旸，阿里通义千问（Qwen）技术负责人。从2021年发布的M6，到2025年的Qwen3，他都是名副其实的模型一把手；

孔令鹏，香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B，成为了开源扩散语言模型的新SOTA。

三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

△图源：作者拍摄

某种意义上，曹越和孔令鹏，都在探寻AI“非共识”的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构，分别应用到对方身上：

通过把多模态的主流架构Diffusion Model，运用在语言模型中，孔令鹏参与研发的Dream 7B，用仅7B的参数量，在多个任务上表现优于671B的DeepSeek V3。

反过来，曹越则将语言模型主流的自回归（Auto Regressive）路线，运用到了视频模型的训练中，实现了生成视频长度的无限扩展。

他们的经历代表着如今AI行业最性感的一面：拥抱非共识，实现创新。

相对的，阿里给外界的印象，则是拥抱共识：长期以来，千问发布的都是Dense（稠密）模型，曾经的主流。直到2025年2月，团队才推出了首个MoE模型。

作为负责人的林俊旸，也常常听到外界批评的声音：“千问是不是太保守了？”在圆桌上，他做出了澄清：“我们并不保守，只是做了一大堆实验后失败了。真是一个难过的事情。”

这也是AI行业的另一面：共识，往往代表着占多数的成功经验。

2023年，阿里训练千问大模型时，林俊旸形容，内部曾多次“魔改”Transformer架构。然而他们最终发现，Transformer还是最优解。

当然，三人都感受到的一个变化是：去年还在信仰强共识，今年大家都开始寻找非共识。

如今的行业，林俊旸打了个比方，大家都在不同的方向做探索，看谁能摸中彩票。“大家看似在相反的道路上，其实都不矛盾。”孔令鹏也有类似的观点。

一个案例是，无论是像孔令鹏那样，在语言模型的基础上做Diffusion，还是像曹越那样，在视频模型上做自回归，都是为了平衡Model Bias（模型偏差）和Data Bias（数据偏差），达到更好的效果。

以及，关于预训练，近期在美国又涌现了新的非共识：预训练还没结束。当下林俊旸也是站在新非共识的一方。他透露：“我们还有好多数据没放进（千问），放一次提升一次。”

以下是《智能涌现》对圆桌内容的整理，内容经过编辑：

千问并不保守，只是一大堆实验都失败了

蚂蚁百灵大模型负责人周俊（花名：西亭）：用扩散模型来做语言生成背后的思考是什么？

孔令鹏：在你不了解你的数据时，不要对数据做更多的假设，让模型去接管更多的东西，这是我们将扩散模型用于语言模型训练的原因。

有些数据是有从左往右的Bias（偏差，指输出结果与真实结果的差别），比如3+3=6，不可能先有6，再去补前面的过程。另外一些数据，比如我开三个会，A会在B会后面，B会必须在中午，这就意味着数据不可能完全从左到右。

以Gemini Diffusion这样的文本扩散模型为例，它是一个比从左往右学习的自回归模型更少假设的模型，它可以双向学习，也可以处理并行的任务。

西亭：请结合实践，分享一下多模态领域主流架构面临的技术挑战。

曹越：语言和视频在某种意义上还是比较像的，它们在时间维度上都有比较强的因果先验，也就是时间上的因果关系。

去年年初发布的Sora，其实没有这种先验，生成的5秒视频，是直接用一个模型来做建模。

我们自己的感受是，视频时序的因果先验还是很强的，人看视频的时候是有顺序的。为什么有顺序？因为视频信息的存储方式是有顺序的。

我们如果能够设计出一种训练方式，能够编码时间维度上的顺序关系，我可能可以更大程度压榨视频中的信息，从而使得模型最终的天花板更高。

西亭：分享一下对Transformer架构认知的变化，以及你怎么看待Transformer目前面临的挑战。

林俊旸：我对Transformer感触特别深，因为刚开始干这行没多久，Transformer就来了。所以我个人还是比较感谢Transformer。

一路过来，我们尝试去改很多东西，但是最终发现Transformer确实挺好用的。2022年的时候，大家都会去改一些细节，比如说对Transformer的激活函数做一些相应的改动。感受是，谷歌还是太强了，PaLM（谷歌基于Transformer训练的模型）还是挺好使的。

尤其2023年，我们刚开始做千问，刚开始也挺挣扎。可能有一些同学用过我们早期的模型，花样特别多，搞了半天发现，基础模型结构还是不能乱动。所以我觉得这还是有一点玄学的。

大家对千问有一种批评，是说觉得我们相对比较保守。其实我们并不保守，做了一大堆的试验都失败了，这是一个难过的事情。

还有一件值得关注的事，MOE模型。我们2021年就在做MOE，当时是M6模型。当时发现MOE挺能Scale的，只是这个模型不强。

MOE还是值得走的，因为今天说白了，效果和效率，现在商业公司全都要。今天我们探索的架构，现在还没有很好的结论，还在做试验，可以看到优点和缺点。

但我觉得是挺好的方向，因为MOE确实有可能实现无限的上下文。但一些常见的长序列任务，比如一些常见的程序类的任务，比如抽取类的任务，有时还不如其他的方案。

所以，我们现在可能在做Transformer的同时，还会关注MOE。

当然，孔老师的方向，Diffusion LLM（扩散语言模型）我们也在关注，这是另外一条线。目前看起来，扩散语言模型在数学和代码，以及推理类的任务上，表现确实挺好的。

这挺出乎意料，因为当年我们做自回归的各种实验的时候，相关的任务还挺失败。但现在扩散模型的表现还挺好。但它的通用能力，现在还有比较大的提升空间。

我觉得大家都在不同的方向做探索，看谁能摸中彩票。

现在每一次下赌注，成本变得越来越高

西亭：当前业界聚焦什么样的一些模型优化方法？你认为效率优化空间最大的方向可能有哪些？

林俊旸：大家都非常关注现在DeepSeek的每一步的动向。当时看到DeepSeek能把MOE的稀疏比（激活的专家数量与总专家数量的比值）做到这么大，还是挺惊喜的。

但其实我们也已经做到差不多的稀疏比。当时我们试验模型的效率和效果，看看模型能不能在变大的同时保持效率。结果，1:20的稀疏比一般实验效果比较好，但1:10是相对更加保守的选项。所以我们更多在这个区间里边。

但DeepSeek可能做得更好一些，稀疏比能达到1:20+。

MOE值得进一步去探索，专家数越多，越稀疏，训练的稳定性肯定变差。相应的，我们要针对训练稳定性，去做相应的一些优化。

但针对模型结构，今天要更安全地进行考虑。模型架构有可能对预训练非常友好，但对强化学习非常不友好，这会带来很多困难。所以现在每一次下赌注，成本变得越来越高。

同时本身模型的结构也要提前考虑到长序列的问题。

所以我觉得效果效率联合优化，一个是看模型是不是变得更大、更稀疏，另一个能不能支持更长的序列；同时在训练的时候，长序列的训练不要变得更慢。

西亭：多模态领域如何通过架构创新实现突破？

曹越：2021年的时候我们也对Transformer进行了“魔改”，做了一个叫做Spring Transformer的工作，那个时间点在计算机视觉领域还算不错。

但往后想，大家“魔改”Transformer，很多时候是在改先验。改先验的过程有个非常关键的问题，就是：你的先验会不会影响模型效果的天花板。

一个探索维度是，在attention（注意力）中，怎么加入加合适的先验sparse（稀疏化，从而减少计算复杂度），我觉得这是ROI（投入产出比）很高的事情。

另一个维度，整个多模态领域很多时候涉及多种不同Token类型的融合。这个过程如果在attention做合适的sparse，就能够显著提升跨模态融合的效率。

还有一个维度是，怎么做到从Tokenize（编码）到联合建模的端到端优化。

西亭：怎么提升Transformer的可解释性，以及降低幻觉？

孔令鹏：我想先回复一下曹越。我觉得在大家看似相反的道路上面，其实并不是一个矛盾的状况。

我们做的其实就是找到一个最好能够适应数据的Bias，或者我相信我的模型能去除所有的Bias，但这也对我的模型提出了更高的要求。

说回模型的可解释性和幻觉，Transformer要不要背这个锅是值得商榷的。

我也想问俊旸一件事。因为有一种说法是，强化学习这套范式，对模型后期的“幻觉”可能不是好消息，因为它可能学到了一些错误的推理模式。

在Qwen 3和Qwen 2.5中，有没有看到这样的现象？

林俊旸：我只能自揭其短。“幻觉”我们确实没有办法控制。

所以现在要解决几个问题。一个是怎么把“幻觉”降下来，反过来通过强化学习的办法去解决。

另一个是和“幻觉”相关，或者是跟可解释性相关的事。我们现在在做一些SAE（稀疏自编码器）相关的研究，发现有些问题的出现，可能和一些特征有非常紧密的关联。所以我们通过SAE，找到一些特征，然后压抑它们。

就算做强化学习，发现有“幻觉”的问题，这也不可怕，就看接下来怎么解决。

孔令鹏：一个架构，首先是和硬件联合考虑的。架构之后又会到来新的问题、新的架构，比如有一些架构不适合做强化学习。

我的感觉是，不要用“GPU+自回归/Transformer+预训练/SFT（监督微调）+强化学习”这样一个固定不变的模式，去考虑所有的事情。

林俊旸：未来可能是会发生变化的。主要我们也没得选，只能用GPU训练。

我问过懂硬件的朋友，他说GPU不太适合训Transformer，我也不可能自己造一款。

但是我们公司可以去做，或者中国反而有一定的机会做软硬一体。所以将来我们能把问题想得更深一些。

创造其实是一个搜索层面的问题

西亭：目前预训练的边际效应好像已经开始递减。怎么通过架构的革新，突破目前的瓶颈？

林俊旸：先说达到瓶颈这个问题，我是保留疑问的。

因为去年说预训练要结束了，这成为了共识。但今年大家疯狂追求非共识。现在美国涌现了新的非共识，叫做预训练还没结束。

我不知道该高兴，还是不高兴。干这一行，我也知道自己差在哪，反正有挺多要补。

如果你觉得千问做得还可以，那我觉得预训练大有可为。因为我能说的是，我们还有好多数据没放进去，放一次提升一次。把模型稍微改改，放大一点，性能又提升一次。

西亭：多模态领域，下一代的架构可能有哪些值得关注的点？

曹越：我非常同意俊旸的说法。去年说预训练要结束了，语言数据快用完了，图像视频数据还大有可为，这是我自己一个初步的感觉。

另外一个维度，我觉得下一代的架构还是有挺多大家比较常用的东西。过一段时间大家可以把它拎出来，再看看它是不是常用，或者说它实际上是不是运用了某种先验，但是大家平时没有注意到。

如果我们去看过去十几年的发展史，这其实是一个算力越来越多，整个训练过程中Bias越来越少的过程。

现在我们有新的算力，在算力比以往充足的情况下，之前一些不太能用的技术，可以拎出来再试一试。

还有一个很容易被大家忽略的部分是优化算力。

西亭：未来模型如何突破理解和生成，走向所谓的智能性创造，甚至创造出一些新的智能？

孔令鹏：这其实是一个现在的模型如何能够在智能上更进一步的问题。

比如说创作。创作其实仍然是一个搜索层面的问题。一句话20个词，给你两千个单词，它就是有那么多可能性。最终就是在所有的可能性中找到一种。

所以我有时候觉得，如果你把创造理解为一个搜索问题，那它在将来很可能是可以被解决的。

最后我想说的是，不要太焦虑于预测未来，很多时候我们没有办法，或者说从来也没有办法真正预测未来。

我们只能到某一步的时候，回过头来看一个东西是不是有进步，回过头来发现GPT-4o相对GPT-4是进步，4相对3又是进步。

我看过一个心灵鸡汤，分享给大家：

有一个问题：飞机在飞行的时候，有多少的时间在它规定的航迹上？答案是0%，因为它不停地在调整，把它调整到既定的航道上。但是它从来没有在既定的航道上过。

所以预测也许没有那么大的指导意义。不要害怕犯错，犯错之后去修正你的错误，回过头看一下什么东西在进步。这可能是一个不那么焦虑的态度。

文章来自于“智能涌现”，作者“周鑫雨”。

三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

关键词: AI , AI线下活动 , AI圆桌会议 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话，零配置部署，多路token支持，自动清理会话痕迹等原大模型支持的相关功能。
项目地址：https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner