去年行业信仰强共识,今年大家寻找非共识。
预训练还是不是王道?如今AI行业,这是最大的“罗生门”事件。
2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话“预训练已走到尽头”,到聚焦强化学习的DeepSeek R1出圈,又昭示着预训练风光不再。
从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业“共识”与“非共识”不断流动的一个缩影。
针对AI技术的共识与非共识,2025年5月27日的“技术开放日”上,蚂蚁集团攒了一个交流局。
圆桌对话的参与者,是当下最热的创业者、技术高管和学者:
曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元;
林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手;
孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。
△图源:作者拍摄
某种意义上,曹越和孔令鹏,都在探寻AI“非共识”的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到对方身上:
通过把多模态的主流架构Diffusion Model,运用在语言模型中,孔令鹏参与研发的Dream 7B,用仅7B的参数量,在多个任务上表现优于671B的DeepSeek V3。
反过来,曹越则将语言模型主流的自回归(Auto Regressive)路线,运用到了视频模型的训练中,实现了生成视频长度的无限扩展。
他们的经历代表着如今AI行业最性感的一面:拥抱非共识,实现创新。
相对的,阿里给外界的印象,则是拥抱共识:长期以来,千问发布的都是Dense(稠密)模型,曾经的主流。直到2025年2月,团队才推出了首个MoE模型。
作为负责人的林俊旸,也常常听到外界批评的声音:“千问是不是太保守了?”在圆桌上,他做出了澄清:“我们并不保守,只是做了一大堆实验后失败了。真是一个难过的事情。”
这也是AI行业的另一面:共识,往往代表着占多数的成功经验。
2023年,阿里训练千问大模型时,林俊旸形容,内部曾多次“魔改”Transformer架构。然而他们最终发现,Transformer还是最优解。
当然,三人都感受到的一个变化是:去年还在信仰强共识,今年大家都开始寻找非共识。
如今的行业,林俊旸打了个比方,大家都在不同的方向做探索,看谁能摸中彩票。“大家看似在相反的道路上,其实都不矛盾。”孔令鹏也有类似的观点。
一个案例是,无论是像孔令鹏那样,在语言模型的基础上做Diffusion,还是像曹越那样,在视频模型上做自回归,都是为了平衡Model Bias(模型偏差)和Data Bias(数据偏差),达到更好的效果。
以及,关于预训练,近期在美国又涌现了新的非共识:预训练还没结束。当下林俊旸也是站在新非共识的一方。他透露:“我们还有好多数据没放进(千问),放一次提升一次。”
以下是《智能涌现》对圆桌内容的整理,内容经过编辑:
蚂蚁百灵大模型负责人周俊(花名:西亭):用扩散模型来做语言生成背后的思考是什么?
孔令鹏:在你不了解你的数据时,不要对数据做更多的假设,让模型去接管更多的东西,这是我们将扩散模型用于语言模型训练的原因。
有些数据是有从左往右的Bias(偏差,指输出结果与真实结果的差别),比如3+3=6,不可能先有6,再去补前面的过程。另外一些数据,比如我开三个会,A会在B会后面,B会必须在中午,这就意味着数据不可能完全从左到右。
以Gemini Diffusion这样的文本扩散模型为例,它是一个比从左往右学习的自回归模型更少假设的模型,它可以双向学习,也可以处理并行的任务。
西亭:请结合实践,分享一下多模态领域主流架构面临的技术挑战。
曹越:语言和视频在某种意义上还是比较像的,它们在时间维度上都有比较强的因果先验,也就是时间上的因果关系。
去年年初发布的Sora,其实没有这种先验,生成的5秒视频,是直接用一个模型来做建模。
我们自己的感受是,视频时序的因果先验还是很强的,人看视频的时候是有顺序的。为什么有顺序?因为视频信息的存储方式是有顺序的。
我们如果能够设计出一种训练方式,能够编码时间维度上的顺序关系,我可能可以更大程度压榨视频中的信息,从而使得模型最终的天花板更高。
西亭:分享一下对Transformer架构认知的变化,以及你怎么看待Transformer目前面临的挑战。
林俊旸:我对Transformer感触特别深,因为刚开始干这行没多久,Transformer就来了。所以我个人还是比较感谢Transformer。
一路过来,我们尝试去改很多东西,但是最终发现Transformer确实挺好用的。2022年的时候,大家都会去改一些细节,比如说对Transformer的激活函数做一些相应的改动。感受是,谷歌还是太强了,PaLM(谷歌基于Transformer训练的模型)还是挺好使的。
尤其2023年,我们刚开始做千问,刚开始也挺挣扎。可能有一些同学用过我们早期的模型,花样特别多,搞了半天发现,基础模型结构还是不能乱动。所以我觉得这还是有一点玄学的。
大家对千问有一种批评,是说觉得我们相对比较保守。其实我们并不保守,做了一大堆的试验都失败了,这是一个难过的事情。
还有一件值得关注的事,MOE模型。我们2021年就在做MOE,当时是M6模型。当时发现MOE挺能Scale的,只是这个模型不强。
MOE还是值得走的,因为今天说白了,效果和效率,现在商业公司全都要。今天我们探索的架构,现在还没有很好的结论,还在做试验,可以看到优点和缺点。
但我觉得是挺好的方向,因为MOE确实有可能实现无限的上下文。但一些常见的长序列任务,比如一些常见的程序类的任务,比如抽取类的任务,有时还不如其他的方案。
所以,我们现在可能在做Transformer的同时,还会关注MOE。
当然,孔老师的方向,Diffusion LLM(扩散语言模型)我们也在关注,这是另外一条线。目前看起来,扩散语言模型在数学和代码,以及推理类的任务上,表现确实挺好的。
这挺出乎意料,因为当年我们做自回归的各种实验的时候,相关的任务还挺失败。但现在扩散模型的表现还挺好。但它的通用能力,现在还有比较大的提升空间。
我觉得大家都在不同的方向做探索,看谁能摸中彩票。
西亭:当前业界聚焦什么样的一些模型优化方法?你认为效率优化空间最大的方向可能有哪些?
林俊旸:大家都非常关注现在DeepSeek的每一步的动向。当时看到DeepSeek能把MOE的稀疏比(激活的专家数量与总专家数量的比值)做到这么大,还是挺惊喜的。
但其实我们也已经做到差不多的稀疏比。当时我们试验模型的效率和效果,看看模型能不能在变大的同时保持效率。结果,1:20的稀疏比一般实验效果比较好,但1:10是相对更加保守的选项。所以我们更多在这个区间里边。
但DeepSeek可能做得更好一些,稀疏比能达到1:20+。
MOE值得进一步去探索,专家数越多,越稀疏,训练的稳定性肯定变差。相应的,我们要针对训练稳定性,去做相应的一些优化。
但针对模型结构,今天要更安全地进行考虑。模型架构有可能对预训练非常友好,但对强化学习非常不友好,这会带来很多困难。所以现在每一次下赌注,成本变得越来越高。
同时本身模型的结构也要提前考虑到长序列的问题。
所以我觉得效果效率联合优化,一个是看模型是不是变得更大、更稀疏,另一个能不能支持更长的序列;同时在训练的时候,长序列的训练不要变得更慢。
西亭:多模态领域如何通过架构创新实现突破?
曹越:2021年的时候我们也对Transformer进行了“魔改”,做了一个叫做Spring Transformer的工作,那个时间点在计算机视觉领域还算不错。
但往后想,大家“魔改”Transformer,很多时候是在改先验。改先验的过程有个非常关键的问题,就是:你的先验会不会影响模型效果的天花板。
一个探索维度是,在attention(注意力)中,怎么加入加合适的先验sparse(稀疏化,从而减少计算复杂度),我觉得这是ROI(投入产出比)很高的事情。
另一个维度,整个多模态领域很多时候涉及多种不同Token类型的融合。这个过程如果在attention做合适的sparse,就能够显著提升跨模态融合的效率。
还有一个维度是,怎么做到从Tokenize(编码)到联合建模的端到端优化。
西亭:怎么提升Transformer的可解释性,以及降低幻觉?
孔令鹏:我想先回复一下曹越。我觉得在大家看似相反的道路上面,其实并不是一个矛盾的状况。
我们做的其实就是找到一个最好能够适应数据的Bias,或者我相信我的模型能去除所有的Bias,但这也对我的模型提出了更高的要求。
说回模型的可解释性和幻觉,Transformer要不要背这个锅是值得商榷的。
我也想问俊旸一件事。因为有一种说法是,强化学习这套范式,对模型后期的“幻觉”可能不是好消息,因为它可能学到了一些错误的推理模式。
在Qwen 3和Qwen 2.5中,有没有看到这样的现象?
林俊旸:我只能自揭其短。“幻觉”我们确实没有办法控制。
所以现在要解决几个问题。一个是怎么把“幻觉”降下来,反过来通过强化学习的办法去解决。
另一个是和“幻觉”相关,或者是跟可解释性相关的事。我们现在在做一些SAE(稀疏自编码器)相关的研究,发现有些问题的出现,可能和一些特征有非常紧密的关联。所以我们通过SAE,找到一些特征,然后压抑它们。
就算做强化学习,发现有“幻觉”的问题,这也不可怕,就看接下来怎么解决。
孔令鹏:一个架构,首先是和硬件联合考虑的。架构之后又会到来新的问题、新的架构,比如有一些架构不适合做强化学习。
我的感觉是,不要用“GPU+自回归/Transformer+预训练/SFT(监督微调)+强化学习”这样一个固定不变的模式,去考虑所有的事情。
林俊旸:未来可能是会发生变化的。主要我们也没得选,只能用GPU训练。
我问过懂硬件的朋友,他说GPU不太适合训Transformer,我也不可能自己造一款。
但是我们公司可以去做,或者中国反而有一定的机会做软硬一体。所以将来我们能把问题想得更深一些。
西亭:目前预训练的边际效应好像已经开始递减。怎么通过架构的革新,突破目前的瓶颈?
林俊旸:先说达到瓶颈这个问题,我是保留疑问的。
因为去年说预训练要结束了,这成为了共识。但今年大家疯狂追求非共识。现在美国涌现了新的非共识,叫做预训练还没结束。
我不知道该高兴,还是不高兴。干这一行,我也知道自己差在哪,反正有挺多要补。
如果你觉得千问做得还可以,那我觉得预训练大有可为。因为我能说的是,我们还有好多数据没放进去,放一次提升一次。把模型稍微改改,放大一点,性能又提升一次。
西亭:多模态领域,下一代的架构可能有哪些值得关注的点?
曹越:我非常同意俊旸的说法。去年说预训练要结束了,语言数据快用完了,图像视频数据还大有可为,这是我自己一个初步的感觉。
另外一个维度,我觉得下一代的架构还是有挺多大家比较常用的东西。过一段时间大家可以把它拎出来,再看看它是不是常用,或者说它实际上是不是运用了某种先验,但是大家平时没有注意到。
如果我们去看过去十几年的发展史,这其实是一个算力越来越多,整个训练过程中Bias越来越少的过程。
现在我们有新的算力,在算力比以往充足的情况下,之前一些不太能用的技术,可以拎出来再试一试。
还有一个很容易被大家忽略的部分是优化算力。
西亭:未来模型如何突破理解和生成,走向所谓的智能性创造,甚至创造出一些新的智能?
孔令鹏:这其实是一个现在的模型如何能够在智能上更进一步的问题。
比如说创作。创作其实仍然是一个搜索层面的问题。一句话20个词,给你两千个单词,它就是有那么多可能性。最终就是在所有的可能性中找到一种。
所以我有时候觉得,如果你把创造理解为一个搜索问题,那它在将来很可能是可以被解决的。
最后我想说的是,不要太焦虑于预测未来,很多时候我们没有办法,或者说从来也没有办法真正预测未来。
我们只能到某一步的时候,回过头来看一个东西是不是有进步,回过头来发现GPT-4o相对GPT-4是进步,4相对3又是进步。
我看过一个心灵鸡汤,分享给大家:
有一个问题:飞机在飞行的时候,有多少的时间在它规定的航迹上?答案是0%,因为它不停地在调整,把它调整到既定的航道上。但是它从来没有在既定的航道上过。
所以预测也许没有那么大的指导意义。不要害怕犯错,犯错之后去修正你的错误,回过头看一下什么东西在进步。这可能是一个不那么焦虑的态度。
文章来自于“智能涌现”,作者“周鑫雨”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner