Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

7068点击 2025-12-22 11:44

2025年底，最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。

它主打轻量级、速度快，不仅智能全面超越Gemini 2.5 Pro，而且部分性能也反超了3 Pro和GPT-5.2（比如编程能力和多模态推理），令人非常惊艳。

就在前天，Gemini的三位共同负责人Oriol Vinyals、Jeff Dean、Noam Shazeer和谷歌 AIStudio 的产品负责人 Logan Kilpatrick 罕见同台，进行了一次对话。

这三位嘉宾都相当重量级：Oriol Vinyals是谷歌 DeepMind 研究副总裁兼深度学习负责人；“传奇院士”Jeff Dean 大家都认识，他也是谷歌首席科学家；Noam Shazeer则更不用说了——Transformer的论文作者之一，也是Gemini 的联合负责人。

Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

在这场谈话中，Gemini的三位共同负责人表示：

现在新的 Flash 模型，往往已经能达到甚至超过上一代 Pro 的水平。

Oriol Vinyals甚至坦言：Pro的主要作用，就是拿来蒸馏Flash！

他认为，哪怕牺牲一点智能，更快更便宜的模型对用户来说也非常重要。所以对于Flash这样小而强的模型，他们一定会持续增加投入。

Logan Kilpatrick也透露，他们在谷歌AI Studio 里针对 vibe coding 这个用例，做了一些 Flash 模型和 Pro 模型的对比测试。

结果发现：即便 Flash 在智能上略逊一筹，但由于延迟更低、反馈更快，用户反而写得更多、留存更高。因为没人愿意一直等。可见 Flash 有多么受欢迎。

此外，他们还谈论了Gemini这一年的整体进展、内部的训练细节、对Pro和Flash版本的取舍以及模型后续演进的重要方向等等。

Jeff Dean 透露，Gemini目前用的基础架构是他2018年提出的Pathway架构，主要有三个目标：一个模型可以泛化到数百万个任务，强多模态，并且采用稀疏激活。

现在Gemini已经基本实现了这三个目标。而Jeff Dean也透露，关于模型能力的演进方向，谷歌内部已经有了Gemini的下一个“五年计划”。

Gemini 3刚发布时，Oriol 曾在X上表示，Gemini 3的核心秘诀是提升预训练+后训练，尤其在后训练上还是一片未被开垦的“绿地”，有很大的提升空间。

Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

而在这次谈话中，他也再次强调，当前阶段最大的突破空间很可能在后训练。

Jeff Dean则认为，目前在一些Benchmark上，模型能力基本已经见顶，尤其是代码、推理和数学领域；但在“帮我规划一次旧金山旅行”这种开放式任务上，模型能力还有较大的提升空间。

另外，Noam 和 Jeff 也强调，大模型的规模依然重要，但它不再是决定一切的唯一变量。相比之下，模型的持续学习能力才是后续的重要改进方向。

小编翻译并整理了整期对话实录，有不少有价值的信息，enjoy！

Gemini的起源：Google Brain与Deepmind的融合

Logan Kilpatrick

已经有不少人试用了 Gemini 3 Flash，并对模型进行了测试，整体反馈非常积极，势头非常强劲。此前我们发布了 Gemini 3 Pro，现在整体都在加速推进。

Jeff、Oriol、Noam，你们三位是 Gemini 的联合技术负责人，整体上在引领 Gemini 的方向。也许我们可以从 Jeff 开始，请你从自己的视角谈一谈：在 Gemini 3 Flash 和 3 Pro 发布的这个时间点，我们正处在一个怎样的阶段？以及最近这段时间，我们是如何走到今天这一步的？

Jeff Dean

当然。我们对 Gemini 3 系列模型感到非常兴奋，包括几周前发布的 Pro，以及昨天发布的 Flash。

正如你所说，我、Oriol 和 Noam 是 Gemini 项目的三位联合技术负责人。我们已经合作很多年了，一起工作一直非常愉快。

从 Gemini 项目的起源来看，其实源于我当时的一个观察：在 Google 内部，我们在大语言模型规模化方面已经积累了很多优秀成果；在 Google Brain（当时属于 Google Research）也在推进多模态模型；与此同时，Oriol 在原 DeepMind 团队中也在做相关工作。

但问题在于，这些非常优秀的人才和研究工作是分散的，算力资源同样是分散的。我认为，如果我们能真正整合力量，作为一个统一的团队协作，会好得多。这就是 Gemini 团队和项目的起点——发生在 Gemini 1.0 发布之前不久。

此后，看到模型一代代演进非常有意思：Gemini 1.5、2.0、2.5，再到几周前发布的 Gemini 3 Pro，以及本周发布的 Gemini 3 Flash。我们对此都非常兴奋。

当然，我们也必须学会如何跨越海洋、跨越多个地点协作，这本身就是一个学习过程。但我认为我们现在已经真正进入了状态。大约从一年前的 2.5 系列开始，到现在的 3 系列，我们明显找到了节奏。

Logan Kilpatrick

我非常喜欢这一点。看到 Brain、DeepMind、Google Research 的人才真正融合在一起，并且取得如此快的进展，确实非常酷。

Oriol，我也很好奇你从自己的视角怎么看这个问题，尤其是从历史上看，Brain 和 DeepMind 在研究方法上的差异。

我个人在看《The Thinking Game》这部纪录片时，一个非常强烈的感受是：DeepMind 在十年前解决的问题，以及后来 AlphaFold 面对的问题，和我们今天在 Gemini 上遇到的挑战，其实非常相似。

其中让我印象最深的是数据问题：比如人类真实标注的蛋白质折叠数据非常稀缺，团队必须通过各种方式“合成性地放大数据规模”。我很好奇，这种思路与你们今天所处的 RL、“测试时计算”范式之间，有多少相似性？你觉得当年那些问题和今天这个阶段之间，有多大的连续性？

Oriol Vinyals

我可能先从一个更宏观的角度来回答。

在组织层面，我其实非常幸运：很多年前我在 Brain 团队工作，后来我搬到伦敦，加入了 DeepMind。所以我亲身经历了这两种研究文化在早期的差异。当然，正是我和 Jeff 之间的联系，最终也帮助我们启动了 Gemini 项目，把这两个团队再次结合起来。

从研究方式上看，尤其是 DeepMind 的早期文化，有一个非常鲜明的特点：明确的长期目标、宏大的愿景，以及“不解决问题就不罢休”的项目周期。这种精神其实深刻地体现在 Gemini 的起点上——Gemini 的目标是构建 AGI，是“解决智能”这个问题，我们是为长期而来。3.0 很棒，但它并不是终点。

当然，Brain 也有大量类似的长期项目，同时带来了对神经网络架构、训练方法等方面的多样化探索和创新。这些基因同样进入了 Gemini。

所以可以说，这两个组织的 DNA 在 Gemini 中完成了融合。而在方法论上，正如我们今天看到的那样，无论是数据驱动的无监督/预训练，还是强化学习（RL），依然是未来模型持续创新的“绿地”。

回头看一些早期项目，当时外界并不总是理解我们在做什么，尤其是我们研究打电子游戏的那段时间。但我们的目标始终是：开发能够更广泛泛化的算法。

事实上，很多当年开发的算法，现在都可以直接应用在大语言模型上。当时这点对我们来说是显而易见的，但对外界并不明显。

比如 AlphaFold 中使用的蒸馏、强化学习加监督式自举（就像 AlphaGo 那样），这些方法与今天在大语言模型中的做法是高度一致的。这些技术在不断被发现、打磨、改进，而每一轮迭代都会带来新的提升。

我认为，从 2.5 到 3.0 的跃迁，无论是在预训练还是后训练上，都叠加了大量这样的改进，最终形成了一次相当显著的提升。

Logan Kilpatrick

我非常喜欢这个说法。我之后可能还会再提到这一点。

顺便说一句，我记得之前看到过一个 meme，不知道是 Jeff 还是 Oriol 发的，大概意思是：“是该扩展预训练，还是扩展后训练？”然后答案是同时狂按两个按钮。这个 meme 是谁的功劳？

Jeff Dean

我觉得是 Oriol 吧？

Oriol Vinyals

我好像听说过这个说法，但 meme 不是我做的。不过感谢 whoever 发了那个 meme，我其实没看到。

Jeff Dean

真正的“秘密”就是：更好的预训练，加上更好的后训练。

Oriol Vinyals

对，这就是秘密。非常“机密”的秘密。

Noam Shazeer

我觉得有趣的一点在于：虽然我们只有一个统一的目标，但这是一个可以从非常多正交方向持续取得进展的问题。

正如 Oriol 提到的，“加强预训练”“加强后训练”只是其中两个按钮。实际上还有很多这样的按钮，每一个都能从不同维度提升模型效果。

这恰恰非常适合一个拥有数百、上千名工程师和研究员的大型组织。你可能会觉得这么多人一起工作一定会一团乱麻，但事实证明，如果问题本身可以被拆解为多个正交方向，那么在十个方向上各取得一点突破，叠加起来就会产生巨大进展。

这正是 Google Brain 自下而上研究方式的优势，而它也与 DeepMind 更加聚焦长期目标的方式形成了非常好的互补。

如何看待产品与模型的关系

Logan Kilpatrick

最近我在和一些人讨论一个问题，Corey 也从某种角度提到过——我这里用自己的方式转述，不代表他的原话：产品本身是否也是一种“规模化机制”？

我们可以扩展模型规模、扩展预训练和后训练、使用测试时计算等等。但现在你会看到，很多评测开始引入“带工具的 benchmark”“带 agent harness 的 benchmark”。我很好奇你们怎么看待“产品”在其中扮演的角色：它是否能反过来帮助提升模型本身的能力和交互闭环？这是不是你们正在思考的方向？

Noam Shazeer

我认为这非常有价值。我很喜欢在 Google 这样的全栈公司工作，从底层 AI 技术，一直到服务数十亿用户。

产品不仅能为训练提供数据和反馈，也能极大提升团队的动力。看到自己做的东西正在被真实用户使用，这本身就非常有意义。

Jeff Dean

我补充一点：当你的工作被大量用户使用时，这对人是极其有激励作用的。

这可以是直接的，比如 Gemini App；也可以是间接的，比如 Gemini API，被开发者使用，或者嵌入到各种 Google 产品中。

这正是我当初进入软件工程领域的原因之一，看到自己的工作被使用，是非常快乐的事情。少数人做出的成果，可以让数百万、数千万，甚至数十亿人受益。这是软件行业非常独特、其他职业很难拥有的体验。

Oriol Vinyals

我从稍微不同的角度补充一下。我们三个人本质上都是深度学习研究者，但你永远无法绕开真实世界。

历史上有无数例子：正是因为真实世界的需求，我们才不得不发明新的技术。比如在图像识别早期，我们发现图像并不会总是居中，于是需要设计能够处理这种情况的模型。又比如文本是变长的，你无法直接把卷积网络套在可变长度的文本上，于是我们发展了循环网络、再到 Transformer。

今天也是一样。如果用户希望和聊天模型进行跨越多年的长期交互，那我们就必须从研究层面正面解决这个问题。所以现实世界的需求本身，也在强迫我们不断创新。当然，这也与动力、影响力密切相关，我们做的事情确实重要，这让我们保持脚踏实地。

Jeff Dean

我再补充一点。除了关注“谁在用你的产品”，在一家全栈公司里，另一个巨大优势是：我们会非常深入地思考训练模型所依赖的基础设施。

我们已经构建自己的 AI 加速芯片 TPU 超过十年了。这对两件事至关重要：一是让深度学习模型可以部署到更多产品场景中；二是支持模型训练规模的持续扩展。

早在 2012 年左右 Brain 团队成立初期，我们主要使用数据中心里的 CPU 训练模型。当时我们就训练出了一个规模是此前最大模型 50 倍的神经网络，在视觉和语音任务上都取得了惊人的效果。

但我们也很快意识到：如果要把这些模型服务给大量用户，仅靠当时的 CPU 或 GPU 是不够的，这直接促成了 TPU 项目的诞生。此后，我们持续迭代 TPU，使其能够很好地支撑 Gemini 的大规模训练和推理服务。

目前最大的突破空间在后训练

Logan Kilpatrick

是的，我们现在真的是怎么都不够用 TPU，这确实是一个非常现实的瓶颈。

我不太清楚“Gemini 联合技术负责人”这个职位的精确岗位说明是什么，但我猜，对你们三位来说，工作中至少有一部分是要决定：下一步的关键技术下注点在哪里，我们要朝哪些方向走。

Demis 多次提到过这样一个观点，我相信也有不少人认同：要真正走向 AGI，可能一定需要某种架构层面或模型层面的根本性突破，而不仅仅是持续的工程创新。

当然，我们也看到，每一次模型发布本身就包含了大量创新。比如如果你单看 Gemini 3 Flash 和 3 Pro，就会发现这并不是第一次被提到，Flash 在后训练配方上有一系列创新，使得它在某些基准上，尽管模型更小，但进步幅度甚至超过了 3 Pro。

所以我很好奇，你们是如何看待这种张力的：一方面，短期和中期存在一个极其丰富的改进空间；另一方面，我们是否需要为未来做出一些“根本性”的新下注，去争取真正通向 AGI 的突破？还是说，其实我们可以沿着现有范式继续推进，只要不断踏实地做创新，就足够了？

不知道这个问题是否引起你们的共鸣，谁愿意先来回答？

Oriol Vinyals

我先来吧。

Logan Kilpatrick

Oriol，也许你可以顺便解释一下你常说的“drastic research（激进式研究）”是什么意思。

Oriol Vinyals

好的。关于“drastic research”这个词，其实挺有意思的，甚至有点“署名归属不清”。这是我和 Ilya 在 Brain 时代的一次讨论，他说是我发明的，因为我当时说“这是一个非常 drastic 的想法”，但我记得这个词是他先用的。总之不重要。

它的意思其实很简单：不是只做增量式思考，而是更超前地思考——真正需要发生什么，才能带来质变。

当然话说回来，当一支非常强的团队把大量增量改进做到极致时，这些改进是会叠加成巨大进步的。

Gemini 就是一个例子，但对我来说更“极端”的例子其实是 AlphaFold。那个项目多年里几乎没有发论文，而是持续打磨架构、训练配方和每一个细节，始终围绕着一个大目标前进。

回头看，AlphaFold 的成功其实是大量技巧和“深度学习工程细节”的积累，并不一定依赖某个突然出现的、极端颠覆性的技术。Transformer 当时已经存在，本身就是一个非常强的架构。当然，Noam 可以更详细地讲 Transformer。

至于 AGI 到底需要什么，我认为严格地不断完善现有配方，也有可能就已经足够。数据是存在的，潜力也在那里。但与此同时，我们也不能排除未来会出现真正的“巨大跃迁”。

我个人的判断是：当前阶段，最大的突破空间很可能在后训练。当然，我们三个人的看法未必完全一致。

不过，作为一个大型公司和大型项目，我们可以同时在多个方向下注，这本身也是我们的优势。

最后，关于“技术负责人”这个角色，我想补充一点：我们很大一部分工作，其实是筛选。团队里每个人都非常聪明、非常有创造力。很多时候，我们并不是提出想法的人，而是判断哪些想法最有前景。

并不是“我们提出所有想法，别人来执行”，而恰恰相反。我想澄清这一点，给可能对我们日常工作有不同想象的朋友。我提名 Noam 接着讲。

Noam Shazeer

谢谢 Oriol。确实，这是一个非常复杂的组合问题。

有大的突破，也有小的突破。关键在于：它们可以正交叠加，而且不会引入过多技术复杂性，这样我们才能不断继续往上叠。

你可以粗略地想象：也许一个“大突破”能给模型增加 1 个 IQ 点；一个“小突破”只能增加 0.1 个 IQ 点。但只要我们持续把这些叠加起来，进展就会非常巨大。

至于下一个“超级大突破”会不会出现？老实说，我觉得是 50/50。但我们确实在很多方向上都看到了大量创新：后训练是重点，但预训练、模型架构、数据、下游应用等方向也都在持续推进。

Jeff Dean

我认为，保持一个风险组合非常重要。一部分是更长期、更高风险、可能成功也可能失败的想法；另一部分是希望能进入下一代 Gemini 模型的、相对短期但同样重要的工作。

后者往往理解得更清楚，需要通过实验进一步验证，它们也许只能带来 1 分或 0.1 分的提升。但当你把很多这样的改进叠加起来，就能实现代际飞跃。

与此同时，我们也必须持续押注那些可能彻底改变现有范式的新方法。

在 Gemini 项目启动之前，大概在 2018 年左右，我们开始意识到：为不同任务分别训练一大堆模型，可能并不是正确的方向。

于是我发起了 Pathways 项目，其核心目标是：

一个模型，能泛化到数百万个任务
能处理多模态输入和输出
模型不是完全稠密的，而是稀疏激活的

围绕这三个目标，我们不仅在模型上做探索，也搭建了底层的软件基础设施，以支持这种“稀疏、激活方式很奇怪”的模型规模化训练。

实际上，今天 Gemini 使用的正是 Pathways 这套基础设施。这三个目标，今天基本已经在 Gemini 的多个版本中实现了：一个模型可以做数百万件事，强多模态，并且在最新版本中大量采用稀疏激活。

所以，设定五年期目标，然后一步步朝它们推进是非常有价值的。不是五年什么都不做，而是沿途不断取得阶段性成果。

现在，我们脑子里也已经有了关于未来五年的类似蓝图：下一步模型能力该如何演进。

代码、推理和数学已经被“击穿”，下一步是开放式任务

Logan Kilpatrick

太棒了。Jeff，也许我们可以线下聊聊，把“未来五年的完整清单”拿出来看看。

Noam 和 Jeff 都提到了一个点：模型能力在很多维度上都在持续提升，可能是某个评测的一两个百分点，也可能是更细微的改进。

但与此同时，我们也看到某些领域在 6 到 12 个月内被迅速“吃穿”了。比如代码、推理、数学。年初时，“Humanity’s Last Exam（HLE）”这种 benchmark，最强模型的得分还是个位数百分比；现在已经出现了 50% 以上的模型。代码领域的 AIM benchmark 几乎已经被刷到接近 100%。

我很好奇：你们觉得这种趋势会持续吗？还是说，代码、推理、数学这些领域，本身就有某些特性，使得进展会特别快，而其他领域（比如生物学）就没那么容易？

Noam Shazeer

我先说说代码吧。我觉得大家已经意识到代码领域极其有价值。可能我们作为工程师有点“近视”，因为它直接帮助了我们自己。

但说实话，我本人就非常感谢 Gemini 在加速我的编程工作。而且这不仅是“我们觉得有用”，而是代码能力可以被用于构建极其高价值的东西，比如继续构建 AI 本身。

Jeff Dean

我再补充一个关于数学的例子。两年前，模型在 GSM8K（中学数学题）上都表现得很吃力，比如：“Fred 有 5 只兔子，从两个朋友那里各拿到 1 只，现在有几只？”

而现在，我们已经有模型能在 IMO（国际数学奥林匹克）这种难度极高的竞赛中拿到金牌。

这充分说明：后训练和强化学习在可验证领域（如数学和代码）里非常有效。

原因在于：在这些领域，我们可以生成候选答案，并且明确地验证对错。数学可以用定理证明，代码可以运行、编译、跑单元测试。而真正的挑战在于那些“模糊领域”：比如生物问题，或者“帮我规划一次旧金山旅行”这种开放式任务。这些问题没有清晰的奖励函数或对错判断。我认为，未来几年一个重要方向就是：如何让这些开放式领域的进展，像数学和代码一样快。

Flash版本：相比智能，速度快也很重要

Logan Kilpatrick

这也让我联想到当前的 Flash 时刻。显然，蒸馏已经非常成功。我们有一个极其强大的“教师模型”，然后把能力蒸馏到 Flash 这样的更小模型中。

Oriol，我很好奇你怎么看这个问题：在速度、效率、成本和智能之间做权衡时，我们的心智模型是不是Pro 模型完全不做妥协，反正以后可以再蒸馏？在多条研究主线并行的情况下，Pro 的决策是否最终决定了 Flash 能达到的上限？比如现在的 Gemini 3 Flash。

Oriol Vinyals

这是一个非常好的问题。回到 Gemini 项目最初的设计，Jeff 可能还记得最早的那些幻灯片：从一开始我们就明确，Gemini 会同时有两个运行点：

一个是：最大智能，不做任何妥协
另一个是：更强可部署性，但不追求绝对前沿智能

这种划分方式非常有帮助，而且我认为短期内不需要改变。

但现实发生的事情是：一代一代下来，新的 Flash 模型，往往已经能达到甚至超过上一代 Pro 的水平。也就是说，在固定模型规模或延迟条件下，智能水平在持续上升。当然，在最大规模下，Pro 仍然会在某些 Flash 难以触及的能力上保持领先。

这最终变成了一个用户问题：你到底需要什么？很多用户可能会选择 Pro，因为他们不想每次都猜“这个问题 Flash 行不行”。

与此同时，我们也把蒸馏这件事做得非常成熟了。我和 Jeff 经常提醒大家，这其实是一篇当年被拒稿的论文，但它一次次证明了自己的价值。

我认为，两种模型之间的差距不一定会变成 0，但很可能会小到一个程度：Pro 的主要作用，就是用来“生成”Flash。

当然，我们可能仍然希望把 Pro 直接交给某些用户。但从长期来看，能以最低成本提供前沿智能，是一个非常理想的状态。

老实说，随着 Gemini 3.0 的进展，我们已经离这个目标非常接近了。这真的非常令人兴奋。

Jeff Dean

我补充一点。我们也在做端侧模型，比如用于 Pixel 手机等设备的模型，这类场景会有额外的约束，比如内存规模等。

我认为延迟作为模型质量指标被严重低估了。能够在极低延迟下，依然具备很强推理能力、可以处理复杂问题的系统，是非常非常重要的。

延迟可以从不同层面来优化：

一方面是模型层面的优化，通过架构设计让模型天然更快；
另一方面是硬件层面的决策，让某些模型在未来的硬件平台上运行得特别高效。

延迟和推理阶段算力的另一个关键意义在于：它让你可以在固定的延迟预算内，把模型“变得更聪明”。

如果模型本身快 5 倍，你可以选择：

直接快 5 倍给出答案；
或者让模型“多思考一会儿”，得到更好的答案，同时仍然比原来快 2.5 倍。

如果你有非常强大的硬件，再配合通过蒸馏得到的、轻量但能力依然很强的模型，这是一个必须持续投入的重要方向。

Noam Shazeer

我想补充一点。如果我们真的能做到这样，其实是一种非常理想的工作方式：

在训练 Pro 模型时，尽量不去在意推理性能，专注于智能本身；
然后在 Flash 模型上，重点优化延迟、成本和吞吐量。

这让我想起我大学时的一位计算机教授，杜克大学的 Owen Astrachan。他常说一句话：“先让它跑起来（make it run），再让它正确（make it right），然后让它快（make it fast），最后让它小（make it small）。”

这基本就是软件开发和调试的顺序。而现在在模型上似乎发生了类似的事情：先让模型能跑、再让它聪明、再让它快、再让它便宜。看起来，很多“老智慧”仍然在发挥作用。

Jeff Dean

我很喜欢这个说法。确实，不同的使用场景需求差异很大：

有些场景追求绝对最好的质量，并不太在意延迟；
还有很多场景需要更快、更便宜的模型，用于高频、规模化的使用。

这正是我们常说的帕累托前沿：我们希望给用户提供多个选择。理想情况下，用户最好不用太纠结：“这个请求我该用 Pro，还是 Flash？”

但同时，提供一个连续的选择区间，我认为是非常有价值的。

Logan Kilpatrick

完全同意。我可以分享一个具体例子：我们在 AI Studio 里针对 vibe coding 这个用例，悄悄做了一些 Flash 模型和 Pro 模型的对比测试。

结果很明显：即便 Flash 在智能上略逊一筹，但由于延迟更低、反馈更快，用户反而写得更多、留存更高。因为没人愿意一直等。

我昨晚还看到一条评论，有人说自己以前一直是“永远用最聪明的模型、愿意等待”的那一派，这点也呼应了你刚才的观点，Oriol。但在用了 Gemini 3 Flash 之后，他重新评估了这个立场，因为迭代速度实在太快了，在很多情况下，哪怕牺牲一点点智能也是值得的。

Jeff Dean

是的。其实在 Google 非常早期的时候，我们就极度重视搜索结果页面的响应速度，因为我们知道：低延迟是一种极其令人愉悦的用户体验。搜索越快，人们就会搜得越多。

Oriol Vinyals

还有一个很直观的现实是：我们依然处在人类在环（human-in-the-loop）的阶段，所以我们并不会对等待和延迟免疫。

另一个非常令人兴奋、而且即将到来的应用场景是机器人。在机器人领域，你需要模型去控制和操作真实世界的设备，这里有物理层面的硬约束。

我非常确信，对小而强模型的投入只会持续增加。我们对目前的进展本身也感到非常兴奋。

模型并不缺“聪明”，缺的是“持续学习”

Logan Kilpatrick

回到我们之前关于“面向未来的技术赌注”的讨论，最近大家也谈了很多自我改进、持续学习之类的话题。

在不泄露任何“秘方”的前提下，我很好奇：这些方向在 Gemini 里更多是偏研究探索，还是已经开始进入产品或工程视野？目前整个领域大概处在一个怎样的成熟度区间？Oriol，你怎么看？

Oriol Vinyals

这是一个非常“老派深度学习者”的问题。从历史上看，神经网络的发展中，有些地方一直让我觉得不够优雅、也不够合理。

比如课程学习，我们现在是把各种难度的数据混在一个 batch 里训练模型，而人类学习通常是先学简单的，再学困难的。这是一个我们做过一点、但远远不够的方向。

另一个多年来一直困扰我的问题是：我们训练完模型、冻结权重、然后部署，部署后就再也不学习了。

AlphaFold 不会从用户那里学习，AlphaGo 也不会从自己下过的棋局中继续学习。至少在权重层面，这些系统在部署后是“静态的”。

这些显然都是非常深层次、非常重要的改进方向。随着我们逐渐接近 AGI，你会自然期待持续学习、情境学习这类能力出现。

举个例子，Demis 很喜欢和模型下棋。模型其实应该意识到：“我下得还不够好。”然后它应该自己花一周时间专门学习国际象棋，再回来对 Demis 说：“我准备好了。”然后击败他。

这里有大量令人兴奋、同时也是经典的开放问题。这说明它们不会容易，但我相信我们会做到。

Jeff Dean

顺着持续学习这个话题说一句，其实预训练本身就有点“反直觉”，至少和人类学习方式相比是这样。

现在的做法是：我们随机初始化一个模型，把它“绑在板子上”，然后把海量文本、图片、视频流式地灌给它。最后再说：“好了，你现在可以开始在世界里行动，学数学、学编程了。”

这种方式下，每个 token 所包含的信息密度其实很低。如果模型能在环境中采取行动、观察后果、主动决定下一步关注什么：比如它想学棋，就主动去读棋谱；想学微积分，就去找相关内容——那会更像人类的学习过程。这是一条非常值得作为长期技术赌注去探索的方向。

Noam Shazeer

我并不是要否定“大规模流式训练”。我们不仅仅是在把数据流过模型，而是让模型对每一个 token 都做下一词预测，而且规模是万亿级 token。

一个人一生可能只接触到十亿级别的语言 token，但通过预测别人接下来要说什么，人类确实能学到很多东西。我们给模型提供的数据量是人类的成千上万倍，这当然极其有价值。

但我也同意 Jeff 的观点：如果我们能把大量计算资源集中投入到最重要、最有价值的方向，无论是治愈癌症、构建编程智能体，还是其他重大问题，那会非常有意义。

这也是为什么我赞同 Oriol 的判断：未来很多大的进展，很可能来自后训练阶段。

Logan Kilpatrick

我很喜欢这个结论，感觉我们两种方式都需要。某种程度上，人类本身就“继承”了进化过程中形成的生物学先验，而大规模 token 流式训练，可能只是一个很粗糙的代理。

Jeff Dean

是的。正如 Noam 说的，大规模流式训练已经被证明非常有效，我完全不想否定它。

但另一方面，人类一生看到的 token 数量远少于模型，却能达到很高的能力水平。这说明，可能存在一种比现在高 1000 倍甚至 10000 倍的数据效率学习方式。

我认为关键在于：人类会思考行动的后果、观察反馈，这种方式更偏向强化学习，而不仅仅是预测下一个 token。

总结：多模态进展、超长上下文、通用模型能力提升

Logan Kilpatrick

太棒了。我们时间差不多了，最后想问一圈：回顾 Gemini 过去两年的发展，有没有哪些出乎意料的地方？不管是进展比预期快的，还是慢的，或者某些意想不到的结果。

Jeff Dean

整体来看，最让我欣喜的是多个方向同时取得进展。视频和图像生成能力的提升尤其明显，而且它们越来越多地和主模型融合在一起，让模型可以进行视觉推理。

你可以看到生成结果，然后说：“不对，我想要的是这个图像的一个小改动。”这种交互非常自然。

另一个我认为被低估的能力是超长上下文。当你把大量数据放进上下文窗口时，这些信息对模型来说是非常“清晰”的，它们以 KV cache 的形式存在。相比之下，训练数据已经被“搅拌”进数十亿参数中，对模型来说是模糊的。

我觉得长上下文能力还远没有被充分利用。我们正在探索的一条方向是：如何让用户感觉自己仿佛拥有对数十亿甚至万亿 token 的注意力能力，就像把大半个互联网、海量视频放进了上下文窗口里。

Oriol Vinyals

对我来说，最意外的是：我们曾经有一个专门做竞赛编程的项目 AlphaCode，是高度特化的系统。

但现在，用通用模型，我们却在数学和编程竞赛中拿到了金牌，而且没有为这些领域做特别定制。这一点非常让我惊讶。

我当时反复提醒团队：这必须是模型本身的能力，而不是某个临时分支、达成目标后就丢掉的东西。结果他们真的做到了。这可能是过去几年里最“激进”的惊喜。

Noam Shazeer

从理性上说，我并不完全惊讶——早在 2018、2020 年，就能预见模型会越来越聪明。

但从情感上说，看到这一切真的发生了，还是非常震撼。你现在可以直接跟模型对话，让它帮你算数学、写代码，而且有成百上千万的人对 AI 感到兴奋。

这真的非常有趣，我也非常期待接下来会发生的事情，希望它能给世界带来更多正向影响。

Logan Kilpatrick

太完美的结尾了。Jeff、Oriol、Noam，非常感谢你们抽时间参与。

也感谢大家的收听，希望你们喜欢新的 Gemini 模型。如果有问题或反馈，随时联系我们。我们会继续“推石头上山”，给大家带来更好的模型和产品。希望明年初还能和大家一起迎来更多有趣的发布。

文章到这里就结束了~各位朋友们冬至快乐，有任何想法或意见欢迎留在评论区！

参考链接：

https://x.com/JeffDean/status/2001692889299206519

文章来自于“51CTO技术栈”，作者 “听雨”。

关键词: AI新闻 , Gemini , 模型训练 , 谷歌AI揭秘

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md