Z Tech｜对话Andrew Dai：14年DeepMind生涯，见证PaLM到Gemini，下一站押注视觉推理

8826点击 2026-05-27 16:31

导语

过去十年，大模型世界里很多最关键的技术路线背后，都能看到Andrew Dai的身影。从早期预训练与监督微调，到后来主流的MoE（Mixture of Experts）架构；从Google Brain最初只有几十人的研究时代，到后来支撑Gemini的大规模数据体系，这位在 Google 工作超过14年的研究科学家，几乎站在了大模型时代每一次关键转折的现场。

但相比“论文作者”这个身份，Andrew在行业里更稀缺的地方在于：他同时站在研究、系统与产品三条线的交汇处。他从Google Brain、Google Research，到后来的Google DeepMind，一路参与了从PaLM到Gemini的大模型演进，并在Gemini时期开始负责最核心的数据体系。也亲眼见证了大模型从“研究项目”，变成真正影响全球产业的基础设施。

但真正让人意外的是，在整个行业仍然沉迷于“更大的语言模型”“更强的代码能力”时，这位长期深耕语言模型的人，却越来越频繁地谈论另一件事——视觉推理（Visual Reasoning），并开启他新的创业征程——ElorianAI。

在Andrew看来，今天的大模型其实并没有真正“理解”世界。它们会生成漂亮的图像、流畅的文字、惊艳的视频，也能写代码、做总结、完成复杂对话。但这些能力背后，很多时候仍然只是“看起来像理解”。

“如果你让模型生成一个装有10个球的盒子，再问它里面有几个球，它依然可能答错。”这个听起来近乎荒诞的例子，恰恰是Andrew最在意的问题之一。

因为在他看来，现在几乎所有Frontier Model，本质上都仍建立在“文本空间”中进行推理。但现实世界并不是文本构成的。人类在拥有语言之前，就已经具备空间感知、物理理解和视觉推理能力。动物捕猎时，需要理解速度、轨迹、重力和空间关系；工程师设计汽车时，会不断画图；物理学家思考宇宙时，也依赖视觉化结构，而不是纯文本。可今天的大模型，仍然缺少这种最底层的“世界理解”。

这也是为什么，在离开 Google 之后，他没有选择再做一个“更大的语言模型”，而是转向视觉推理与多模态理解，创办了Elorian。

访谈中，Andrew反复提到一个词——“Jagged Frontier（锯齿状前沿）”。在外界关于AGI的讨论里，人们总习惯把AI能力想象成一条平滑上升的曲线：某一天，模型突然全面超越人类。但在Andrew看来，真实世界并不是这样。AI的能力增长，更像一片极不均匀的“锯齿状前沿”——某些领域已经远超人类，比如围棋、国际象棋、代码；而另一些极其基础的能力，比如计数、空间理解、物理关系，却依然脆弱得惊人。问题在于，人类往往会在AI表现出“超人能力”后，误以为它已经真正理解了一切。

“也许未来最危险的，不是AI不会思考，而是人类误以为它已经会思考。”他说。这也是为什么，他越来越相信：下一代真正重要的AI能力，不会只发生在文本世界，而会发生在视觉、多模态以及现实物理世界之中。

在这场对话里聊到了 Google Brain 最早期的研究文化、PaLM 2诞生时内部真正的思考、Gemini时代关于架构与安全的争论，也聊到了世界模型、视觉推理、机器人、开源与闭源、Frontier Labs 的未来，以及他为什么认为：今天的大模型，其实还远远没有真正理解这个世界。

以下是本次访谈的内容实录，本次访谈音频版首发于英文访谈播客《Present》，主持人是Christine Qing，过去十年参与过自动驾驶、机器人领域的创业和早期投资，做过技术商业化，也陪跑过从零到一的增长。

本期嘉宾介绍：

Andrew M. Dai（戴明博），Elorian AI创始人，剑桥计算机本科、爱丁堡机器学习博士，在 Google 工作超过12年，先后在 Google Brain、Google Research 到 Google DeepMind 担任核心角色，最终升任 Research Scientist Director（研究科学家总监）。

在Google期间，他还深度参与了几乎所有的大模型训练，从Plam到Gemini1.5和Gemini2.5。在谷歌他与Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》，为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》，为现在主流的MoE架构趟开了道路。他在2023年开始负责领导Gemini的数据板块（包括合成数据）。

Highlight

真正争论得比较激烈的，其实是架构。比如，我们是否应该继续使用autoregressive（自回归）和causal attention（因果注意力）这种标准架构。这些技术路线上的讨论，在项目早期非常激烈。

我认为更值得担忧的问题其实是：未来的AI Agent如何避免被攻击或接管。如果AI Agent能够读取邮件、浏览网页、自动做研究，那么在传统计算机科学里，这些都属于“未经清洗的输入”（unsanitized inputs）。

其实融资太多，对员工未必是好事。美国有一些税务政策，会让早期加入公司的员工获得非常好的收益。但如果你一开始就融太多钱，员工反而会失去这些优势。所以对我们来说，“照顾员工”这件事非常重要。不是只有创始人才应该享受成长红利。

现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士，比如导演、摄影师、艺术家，一眼就能看出问题。比如：“这个人为什么有六根手指？”所以我们现在的阶段，其实只是“看起来像理解”。模型本身并不真正理解自己生成了什么。

我认为：未来会是“专精化Frontier Model”的时代。我们现在做的事情，就是构建一个专门针对多模态推理优化的模型。从数据、架构、算法，到强化学习（RL），全部围绕多模态reasoning设计。

现在的世界模型，大概相当于语言模型二十年前的阶段。那个时候，我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。

目前大多数关于AGI的讨论都建立在「平滑前沿」的假设上——我们相信会有一个阶跃式的变化，从今天模型在大多数事情上远不如人类，到也许明年在一切事情上都全面超越人类。但现实可能不是这样。我在过去十年的发展中看到的是，这是一个高度锯齿状的前沿，几十年前就有了超人级的国际象棋玩家。

01 从40人Google Brain到Gemini：戴明博亲述Google早期AI发展关键节点

Christine Qing：欢迎本期的嘉宾Andrew Dai。他在 Google Brain 以及后来的DeepMind Gemini团队工作了近14年，参与构建了当今最具影响力的一些基础AI系统。现在，他正在创办自己的公司 —— Elorian。Andrew，你在Google Brain和后来的DeepMind工作了近14年。在那段时间里，你和Jeff Dean、Ilya等人一起，构建了许多基础性的AI系统。很多人后来选择继续留在大公司，也有人开始自己的旅程，创办前沿实验室或 AI 应用公司。能不能在这一刻，和我们聊聊过去这十几年里，你个人以及整个行业真正发生了什么？

Andrew：那是一个充满想法和创新的时代。当时Google Brain的规模还很小，大概只有40到50人，所以整个环境非常开放，大家都会分享自己的想法。有些想法很有趣，但没有成功；有些则真正产生了影响。整体来说，那段时期特别容易诞生新的突破。你可以从当时的论文中看出来，比如 Sequence to Sequence，以及很多后来成为今天AI基础的工作，包括预训练与微调论文、Transformer论文等，几乎都集中出现在同一个三到四年的时间窗口里。

Christine Qing：你们当时是怎么组织团队的？是按照不同研究方向划分小组，大家一起碰撞想法？还是从一开始就有一个非常明确的目标？

Andrew：我觉得一开始并没有特别明确的目标，但Google Brain和其他实验室最大的不同在于，我们非常强调“真正影响用户、真正落地到Google 产品”。这是核心驱动力之一。比如Sequence to Sequence，很明显推动了机器翻译的发展。而今天几乎所有人都在使用序列建模或者语言建模技术，那条通向产品的路径一直是真实存在的。没有人只是为了增加论文引用量而写论文。我们的目标是真正把东西做出来，论文只是过程中自然产生的副产品。

Christine Qing：你后来去了Google Health做了几年，还在GoogleI/O上发布过产品。你一直都在做基础研究，同时也不断尝试把AI真正落地。在2023年AI真正爆发之前，你大概经历了多少次这样的尝试？

Andrew：我们做了很多事情，成功的有，但失败的更多。我参与过Smart Reply和Smart Compose，大概是在2016到2018年之间。之后不久，Google Health从Google Brain中独立出来。我当时的职责，是研究如何利用深度学习更好地理解医疗健康记录。但那时候，我们还没有真正把模型规模扩展起来。虽然我们已经开始尝试使用语言模型，但模型实在太小了，几乎什么都做不了。不过现在已经不同了。越来越多公司开始在医疗领域使用语言模型，而且确实开始奏效。

Christine Qing：当时真正的瓶颈是什么？因为医疗系统本来就是最难获取数据的领域之一。如果你想扩大模型规模，就需要更多数据。所以问题究竟卡在哪里？是数据的问题，还是系统本身的问题？

Andrew：两方面都有。一方面是数据。由于HIPAA等隐私法规，医疗数据非常难共享。另一方面则是模型规模。当时的模型和现在的基础模型相比，小太多了。

Christine Qing：ChatGPT出现之后，整个行业都开始加速。我记得你从2022年开始，共同负责GLaM和数据团队。在那个阶段，你是什么时候开始真正意识到：AI已经不再只是研究，而是在对全球经济产生实际影响，并开始走向AGI时代？

Andrew：我觉得转折点是PaLM 2，当时项目名字还叫GLaM。我当时主要负责预训练和架构工作。PaLM 2一开始还是一个非常纯粹的研究项目，但到了后期，结合整个行业的发展，我们已经非常清楚：Google当时必须拥有这个模型。如果没有PaLM 2，Google会明显落后。幸运的是，PaLM 2最终成为了一个非常优秀的模型。它是我们当时最顺利的一次预训练过程之一。

当然，中间也发生过一些意外。比如感恩节那天，我突然发现磁盘空间快满了，于是整个感恩节晚上，我都在复制checkpoint、删除文件。幸运的事训练最终没有中断。训练完成之后，我们发现这个模型真的非常出色，比当时其他模型都强很多。那个阶段对标的还是GPT-3。后来，它被部署到了很多产品中。

那也是我第一次真正意识到：一个模型居然可以同时部署到三四十个产品里。更让我惊讶的是速度。训练结束后仅仅几周到几个月，它就已经无处不在了。这在Google其实非常罕见。

Christine Qing：那当时内部真正的争论是什么？因为在外界，当时关于AI的伦理、安全、人类未来等问题已经开始大量出现。很多讨论都在问：“AI会不会真正颠覆人类？”“这样做在伦理上是否正确？”这些都是当时新闻里最热门的话题。但在真正的会议室里，你们讨论的到底是什么？有没有一些没有进入公开论文、也没有进入公众讨论的事情，是你现在可以分享的？

Andrew：在PaLM 2时期，公众层面的安全讨论确实越来越多。但在公司内部，其实已经建立了比较成熟的安全委员会和安全机制。训练完成之后，模型会经过专门的安全处理流程。所以关于“要不要做安全”这件事，本身并没有太多争论。

真正争论得比较激烈的，其实是架构。比如，我们是否应该继续使用autoregressive（自回归）和causal attention（因果注意力）这种标准架构。这些技术路线上的讨论，在项目早期非常激烈。但到了后期，关于安全本身，已经基本有成熟政策和规范来保证模型对用户足够安全了。

Christine Qing：从宏观角度来看，Google是一家非常成熟的大公司，已经有完整体系来处理安全问题。但现在的Frontier Labs完全不同。他们都在高速竞赛。你觉得目前行业里的安全措施真的足够了吗？尤其是现在，中国模型也在快速崛起。比如之前还有人讨论Anthropic指责Kimi蒸馏他们模型的事情。Google有成熟体系，但这些Frontier Labs呢？从你的观察来看，你怎么看现在的局面？

Andrew：我认为目前的安全工作还远远不够。现在这些模型依然可以被jailbreak（越狱）。目前的安全机制，其实主要是保护普通用户，但对于真正有技术能力的人来说，很多限制依然能够被绕过。不过，我认为更值得担忧的问题其实是：未来的AI Agent如何避免被攻击或接管。如果AI Agent能够读取邮件、浏览网页、自动做研究，那么在传统计算机科学里，这些都属于“未经清洗的输入”（unsanitized inputs）。

而语言模型有一个根本问题：它无法真正区分“来自互联网的信息”和“用户真正的指令”。这里其实存在非常严重的安全漏洞。再加上模型越狱本身并不需要太高技术门槛，我认为，在真正把这些系统投入关键场景之前，我们还需要更多研究与理解。

Christine Qing：你在Google待了将近14年。我猜，离开这样一家机构，对你来说一定不是一个轻松的决定。你和Google的职业关系非常深。所以，最终到底是什么让你真正走出了那扇门？

Andrew：我觉得最核心的是：时机（timing）。对于任何一家创业公司来说，时机都至关重要——ChatGPT出现的时间点就非常完美。模型已经足够成熟，同时整个行业也开始加速。我当时看到的是一个基础模型正在进入一个非常特殊时期的阶段。去年，本质上是“开源模型之年”。开源模型开始快速逼近闭源模型的能力。

这意味着：一家新公司，几乎从第一天就能开始真正做研究。我们不需要重新搭建全部训练基础设施。不需要从零开始准备预训练数据。不需要重新训练所有基础能力。这些东西已经存在了。这极大降低了行业门槛。而且我当时有一种很强烈的感觉：这样的窗口期，不一定会长期存在。因为从经济角度来看，让开源模型长期维持如此高的水平，其实并不合理。训练这些模型的成本太高了。因此，很多模型又重新走向闭源。所以我当时觉得：这是一个真正的“黄金机会窗口”。

另一个原因是Gemini的发展——我越来越明显地感觉到文本能力已经非常成熟了。在很多benchmark上，模型已经达到甚至超过人类水平。而整个行业的关注点，也开始越来越集中在coding上。我认为coding是一个非常重要的方向，市场也很大。我从十岁就开始写代码了，但我始终觉得世界不只有coding。

工程世界里还有太多领域，几乎没有被AI真正改变。很多人会说：“AI对我的行业根本没什么影响。”但如果你仔细观察，会发现原因其实是：那些行业需要真正强大的视觉推理能力。比如设计火箭，或者设计汽车电池。那并不是一堆方程式。你真正做的是：在CAD软件里画结构、设计形状、优化空间。而现在的大模型，根本无法真正理解这些东西。

最后一个非常重要的原因，是团队。我最早和Quoc Le写预训练与微调论文时，只有两个人。后来做GLaM，大概十个人。再后来做PaLM，核心团队大概三四十人。但现在的Gemini，规模已经比当年大了几个数量级。而与此同时，我看到很多中国开源模型团队。他们人数很少，但进展极快。这让我意识到：真正高效的AI团队，不一定需要巨大规模。

我现在越来越相信：正确的方式，是一支非常专注、世界级的小团队，加上充足算力。只有这样，才能真正快速迭代，而中国团队，某种程度上证明了这一点。

Christine Qing：你去年离开Google的时候，我第一反应其实是：你是不是要做另一个Frontier Lab？会去训练自己的大模型。但你最终选择的是视觉推理（visual reasoning）。为什么？你明明完全有能力募集一轮超大融资，训练自己的基础模型，但你却选择了视觉推理这条路。背后的逻辑是什么？

Andrew：这里面其实有很多原因。首先，我不是说我们不在构建前沿模型，我们依然是在构建世界级模型，但问题在于：怎么到达那里。现在AI行业变化太快了。如果一家新公司成立之后，要等两年才发布第一个模型，那基本已经太晚了。行业会直接把你忘掉。所以我们希望能够非常快速地展示真正的进展，而且是大家都能看见的进展。这也是为什么我们融资速度特别快。从公司注册到签署term sheet，整个过程不到一个月。因为我们相信，AI的发展速度已经快到连一周都不能浪费。

还有一个创业者很少公开谈论的点：其实融资太多，对员工未必是好事。美国有一些税务政策，会让早期加入公司的员工获得非常好的收益。但如果你一开始就融太多钱，员工反而会失去这些优势。所以对我们来说，“照顾员工”这件事非常重要。不是只有创始人才应该享受成长红利。我们希望团队里的每个人，都能真正参与这段从零开始成长的旅程。如果一家公司刚开始估值就已经很高，那么后加入的人，其实已经失去了“从0到10亿美元”的成长空间。我始终认为：归根结底，最重要的不是模型，不是权重，而是你招进来的那些人，你的团队。

很多公司的文化，本质上就是CEO和高管人格的投射。我们一直强调：我们是一支“人才密集、低ego”的团队。而这正是优秀团队能够形成的关键。

02 现在的世界模型约等于二十年前的语言模型

Christine Qing：能不能具体解释一下：什么是视觉推理？你之前说，现在很多Frontier Labs在多模态上的能力，其实还停留在“三岁小孩”的阶段。那么，从今天的大模型，到你们正在构建的视觉推理模型，中间真正缺失的那一层到底是什么？

Andrew：现在很多公司都在专注于多模态生成。比如VEO、Imagen、ChatGPT Image 2.0、Project Genie。这些模型都很强，它们能够生成非常漂亮的图像、接近电影级的视频。但问题在于：“生成”不等于“理解”。其实语言模型的发展过程也经历过类似阶段。早在十年前，我和Oriol Vinyals、Quoc Le做聊天机器人研究时，即便是很小的LSTM模型，如果你问它：“人生的意义是什么？”它也能给出看起来很合理的答案。但那并不意味着它真的理解。

现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士，比如导演、摄影师、艺术家，一眼就能看出问题。比如：“这个人为什么有六根手指？”所以我们现在的阶段，其实只是“看起来像理解”。模型本身并不真正理解自己生成了什么。

比如你让模型生成一个装有10个球的盒子，然后再问它：“盒子里有几个球？”它很可能回答错误。这就是目前Frontier Labs普遍忽略的问题：生成能力已经非常强了，但理解和推理依然很弱。

Christine Qing：现在很多投资人会担心：任何AI创业公司，最终会不会都被Frontier Labs吞掉？大家会觉得，Anthropic、OpenAI这些公司能力无限扩张。既然视觉也是大市场，那你会不会最终也被这些巨头覆盖？

Andrew：在这个时代，没有什么是不可能发生的。我不会给任何事情赋予“零概率”。

但我们观察到一个非常重要的问题：多模态能力与代码能力之间，其实存在根本性的张力。我们发现：当你加入大量多模态数据时，模型的coding能力往往会下降；反过来也一样。为什么会这样，现在还需要更多研究。但它至少说明了一件事：很难用一个模型，同时把多模态和代码都做到极致。

所以我认为：未来会是“专精化Frontier Model”的时代。我们现在做的事情，就是构建一个专门针对多模态推理优化的模型。从数据、架构、算法，到强化学习（RL），全部围绕多模态reasoning设计。而我认为，其他实验室如果同时还想把coding能力做到极致，会非常困难。这两者之间，存在根本性的冲突。

Christine Qing：所以现在其实还没有真正的结论。

Andrew：没人知道未来一定会怎样。但我们相信：如果你真的想实现优秀的多模态能力，那么“专精模型”是必要的。

Christine Qing：那视觉推理和世界模型（World Model）之间，真正的关系是什么？LeCun这些年一直在强调 World Model和JEPA，而不是简单的next-token prediction。你怎么看？

Andrew：我觉得，现在的世界模型，大概相当于语言模型二十年前的阶段。那个时候，我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。二十年前，语言模型还是n-gram模型。没有任何人相信语言模型未来会成为整个AI的基础。真的，一个人都没有。

我甚至记得，当年在Google Brain，还有人问：“做语言模型到底有什么意义？”那时候语言模型唯一的用途，就是语音识别解码。除此之外，几乎什么都做不了。但后来，我们开始意识到：这不仅是语音识别技术。它其实是下一代AI的基础。

所以现在我看JEPA，也会有类似感觉。比如现在很多世界模型还只能在单GPU上运行。这其实有点像几十年前的语言模型阶段。我认为它们距离真正成熟，还有非常长的路要走。

但我最大的担忧是：很多World Model路线，忽视了过去十年基础模型已经积累下来的技术与知识。我认为正确的方向，不是完全推倒重来。而是：在现有基础模型上，融合新的架构、新的方法，并继续扩展能力边界。这也是我们正在做的事情。我们并不是否定过去十年的基础模型，而是希望把它们延伸到下一代reasoning——也就是视觉推理与多模态推理。

Christine Qing：最近很多人都会问我：Fei-Fei Li的World Labs世界模型，和LeCun在Meta做的世界模型，到底有什么区别？你能不能给一个比较通俗的解释？

Andrew：也许我可以借用另一位研究这些模型的人说过的话。他说：Meta的模型，本质上更像是一个“4D时空表示模型”。而World Labs现在更接近“视频生成模型”。

但如果从更高层的哲学来看，其实两者很相似。它们都想做同一件事：构建一个能够“表示世界”或者“生成世界”的模型。也就是说，它们都希望AI能够理解并生成一个完整的虚拟世界。而且，两边都认为：视觉是实现这一切的核心路径。

它们未来想落地的应用场景，其实也会有很多重叠。真正不同的，更多是技术细节。甚至还有一些人认为World Labs做的其实根本不算真正的“世界模型”。

Christine Qing：那回到更核心的问题。你认为今天的大语言模型，从根本上缺失了什么？而这些能力，未来的视觉推理模型、多模态模型或者世界模型，谁会真正拥有。

Andrew：从长远来看，我认为问题不在某一个具体组件。不是objective（目标函数）的问题。也不是architecture（架构）或者algorithm（算法）的问题。问题在于：整个系统的哲学本身。

今天所有Frontier Model的核心哲学，基本都是：把所有东西塞进同一个模型，包括文本、强化学习、安全机制、推理能力，而且所有推理，最终都发生在“文本空间”里。但真正的问题是：推理本来就不是一种纯文本能力。在人类发明语言之前，我们其实早就具备推理能力了，动物也一样。

捕食者需要推理：重力、风向、猎物运动轨迹、空间关系，这些推理都不是文字完成的，它们是视觉和物理世界中的推理。所以我认为：对于人类和动物来说，真正的reasoning substrate（推理底层基质），其实是视觉和多模态。而文字推理，只是后来建立在其上的高级抽象。但现在的大模型，全部建立在文本空间之上，而文本空间天然缺少很多现实世界中的关系。比如：如果你旋转一个物体，它依然是同一个物体。如果你把头转过去，看不到那个东西了，它其实依然存在。这些关系，在视觉世界中是天然存在的，但在文本embedding空间里，并不存在。

再比如，如果桌上有9个球，你移动一下，它依然还是9个球。如果再扔进去1个球，那现在就是10个。这些关系本质上来自物理世界，而不是来自文字世界。文本世界，本质上只是一个embedding的世界。所以现在模型最大的缺口，其实就在这里。而我们正在做的，就是填补这个缺口，去构建下一代reasoning。

Christine Qing：你过去几乎整个职业生涯都在做语言模型，现在却转向视觉。语言模型时代积累的架构、算法和 know-how，真的可以迁移到视觉吗？

Andrew：这是个非常好的问题，但我会反驳“我一直在做NLP”这个说法。很多人不知道的是，其实我从来没有接受过传统NLP训练。我没有学过parse tree、dependency parsing这些经典NLP内容。

我和很多深度学习领域的人都相信：从深度学习角度来看，语言和其他模态之间，其实不应该存在根本差异。这一点，其实在我们最早的预训练与微调论文里就已经体现出来了。当时我们不仅做了语言实验，也做了图像实验。

我们发现：next-token prediction在图像上同样有效。虽然效果不如语言明显，但它确实能训练出非常优秀的图像分类器，最近也有很多论文重新开始研究这一点。所以从根本上，我认为语言和视觉并没有本质区别。真正的区别在于——“文字的经济价值”更容易被看到，因为整个世界本来就建立在文本之上。我们相信：视觉世界、多模态世界，依然存在大量尚未被开发的价值。而且不仅仅是视觉任务本身。

如果你仔细观察人类思考过程：即便是在写代码时，我们其实也在“视觉化”。比如向VP解释系统架构时，我们会画图，用框、箭头来表示连接关系。物理学家思考时空、光锥、引力透镜时，也一直在画图。几乎没人会只用纯抽象数学去思考这些问题。因此，真正复杂的reasoning，本质上都需要visual grounding（视觉落地）的。这也是为什么我们认为视觉推理不仅会帮助视觉任务本身，还可能帮助：完成更复杂的软件系统设计、更完整的coding system、数学与几何问题、长文档生成、大型报告撰写等等。

Christine Qing：我在机器人行业待了十多年。机器人领域一直有一个核心问题：它们无法真正自主理解、推理、适应环境。所以你觉得：视觉推理会不会成为真正把这些能力连接起来的关键层？

Andrew：现在机器人领域已经有很多VLA（Vision-Language-Action）模型。但我认为：视觉推理这一层依然非常薄弱。现在这些模型甚至还不会真正“数数”或者简单地摆餐桌，所以在实现真正可用的机器人之前，视觉理解仍然需要大量突破。而且不仅仅是模型问题。硬件控制也是当前机器人行业的一大瓶颈。

Christine Qing：我感觉现在中国在硬件控制上的进步特别快。而美国更多在做底层intelligence layer（智能层）。所以视觉推理，很可能会成为真正连接两边的关键组件。

Andrew：我完全同意。视觉推理一定是优秀机器人系统中的关键路径之一。

03 AGI是锯齿状发展，不是线性

Christine Qing：一年多前，我组织过一次小型研究员讨论会。当时DeepSeek正在引发巨大关注。我问大家：“未来大家会不会做更多开源？”结果很多人都沉默了。因为大家都知道：维护一个真正优秀的大模型，成本极其恐怖，所以从商业角度来看，开源其实不太合理。但后来，我们又看到越来越多模型开始开放。所以你怎么看未来的开源与闭源？

Andrew：我认为，很难判断最终会达到什么平衡。但如果观察趋势，你会发现现在中国公司最强的模型，已经越来越少完全开源了。而且很多公司现在的做法是：先闭源发布。过一段时间，再开源比，如Qwen。未来这个时间差可能会越来越长，可能从几个月变成一年，因为行业正在进入一个新阶段：算力投入已经高到必须考虑商业回报。如果你花10亿美元训练一个模型，你迟早需要回收这10亿美元。否则这个商业模式根本不可持续。

有些人会默认：“等AGI出现之后，一切盈利问题都会自动解决。”但我并不认同。很多人说：“我们已经接近AGI了。”但如果真到了AGI，为什么还要不停融资？这本身就是一个值得思考的问题。所以我才说：去年是一个非常特殊的窗口期。因为那更像是一场“开源竞赛”。大家为了争夺用户，被迫开放模型。但未来，竞争逻辑可能会改变。从“争夺用户”，变成“争夺AGI”，一旦进入这个阶段，公司的开源策略会发生巨大变化。只需要几家头部公司宣布：“我们以后不再开源最强模型了。”整个行业都可能发生连锁反应。

Christine Qing：你的意思是未来最强大的模型，会越来越深入垂直领域，比如药物研发、科研、工业设计。这些模型会创造真正巨大的商业价值，因此也会越来越闭源。而开源模型，则更多存在于应用层与日常场景。

Andrew：我觉得这个判断基本是对的。因为模型越大，成本增长并不是线性的。一个两倍大的模型，成本可能远远不止两倍，所以对于公司来说：继续开源小模型，其实是合理的。因为成本可控、对品牌有帮助、对社区关系有帮助、对营销有帮助

但最大的Frontier Model是否继续开源？我认为很多公司都会重新思考这个问题。尤其是在算力成本持续上涨、内存成本上涨、GPU成本不断上的情况下。当然，开源永远不会消失。开源社区依然极其重要。比如本地LLaMA社区，他们不断迭代、实验新架构、新技术这些都非常有价值。

所以我认为：开源会继续存在。但它未来的形态，可能不会再像2025年那样了。

Christine Qing：说回到Elorian，你之前提到你们既想建立研究机构，也想做真正可见的产品里程碑。那你们接下来的产品到底是什么？能不能具体讲讲你们roadmap上下一阶段的目标？

Andrew：从里程碑来说，我们的目标是构建真正的Frontier Visual Reasoning Model（前沿视觉推理模型）。其实我们已经开始了。目前在某些视觉推理benchmark上，我们已经取得了一些非常不错的结果，甚至达到了SOTA（state-of-the-art）。但我们的目标并不是只在一个benchmark上领先。在正式发布之前，我们希望在更多维度上达到真正领先。

Christine Qing：所以你们会正式发布模型？

Andrew：会。我们计划在今年晚些时候公开发布模型。前提是——我们认为它已经“足够好”。在正式发布之前，我们也会给一部分合作伙伴提供early access。

Christine Qing：那你们最理想的合作伙伴是谁？如果按行业来分，前三个最想合作的领域是什么？

Andrew：我觉得工程类公司会非常有意思。因为我们认为：视觉推理真的有机会推动工程技术本身的发展。而很多技术突破，本质上其实都是工程问题。

Christine Qing：这里的工程是指软件、硬件还是机械？

Andrew：除了纯软件之外几乎所有工程领域。其实我父亲本身就是机械工程教授，所以我可能天然对这些领域会更有感情。

我们真正想合作的，是那些：“视觉推理能力会直接决定公司核心竞争力”的企业。因为我们希望真正帮助这些公司更快运作、更高效设计更快研发、构建更优秀的产品。所以工程行业、建筑行业、工业设计行业这些都非常有吸引力。

我们真正想找的合作伙伴是能够理解“模型不是一夜之间造出来”的人。构建这些系统，需要：数据、算力、时间、持续迭代，它是一个长期过程。我们希望找到愿意一起走这段旅程的人。而不仅仅是“买一个API”。

更重要的是这些合作伙伴，也能够反过来影响模型本身。比如：数据配比、模型方向、reasoning重点。这样我们最终才能真正做出“对他们实际有价值”的模型。

Christine Qing：你亲眼见证了语言模型从最初几个人的小研究项目，发展到今天整个行业的规模。有没有一个你始终觉得在AI或AGI讨论中，被严重低估或忽视的问题？以及你认为未来真正会发生什么？

Andrew：我觉得现在关于AGI最大的问题之一是：大家没有真正认真讨论“Jagged Frontier（锯齿状前沿）”。以及它的短期和长期影响。目前大多数关于AGI的讨论都建立在「平滑前沿」的假设上——我们相信会有一个阶跃式的变化，从今天模型在大多数事情上远不如人类，到也许明年在一切事情上都全面超越人类。

但现实可能不是这样。我在过去十年的发展中看到的是，这是一个高度锯齿状的前沿，几十年前就有了超人级的国际象棋玩家。十年前有了超人级的围棋选手。还有超人级的《星际争霸》玩家。这些都发生在特定领域、特定垂直行业、特定任务和细分领域，现在我们在代码方面也看到了。但这些进展的影响是极不均等的，拥有一个超人级的象棋选手，和拥有一个超人级的程序员，是完全不同的事情，经济影响不同，对世界、对行业的影响也不同。

所以我认为，关于哪些领域适合优先达到超人水平、哪些领域不适合早早达到超人水平，讨论和辩论远远不够，你从某些事情上已经能看出一点苗头——现在我们在黑客攻击方面有了超人级能力。也许我们并不真的希望这样。

但我们该如何应对，如果下一个超人级能力是「撒谎」或「欺骗」呢？不管我们愿不愿意，它都会发生。这些对人类能力的蚕食将是不可预测的，会出现在我们没有预料到的领域。还有AI真正落后的领域，比如计数。关于这方面几乎没有什么讨论。这真的会产生影响，你可以想象，每个人家里都有一台人形机器人，机器人在做手术、在做安全关键应用，比如驾驶，开拖拉机或驾驶飞机。但在一次非常关键的任务中，比如，我们需要确认所有人都从潜艇出来了，而机器数出4个人出来了，但实际上只有3个人出来了，这就是「锯齿状前沿」的典型例子——AI看起来很厉害，但在这一个极为关键的能力上落后了，而没有人注意到，人们把这件事忘了，然后发生了非常糟糕的事情。

所以这就是我担忧的——没有足够的理解，没有足够真实、客观地看待这件事：进步在哪里发生？进步在哪里没有发生，人们只是在说进步是否在发生。但归根结底，我认为，对这个行业真正有破坏性的是：对这些模型仍然欠缺的地方没有足够的理解。

这也是我创立这个实验室的原因之一——对那些人来说很好，但从长远来看，如果它集中在少数几个人手里，对世界来说并不好。

Christine Qing：最后一个问题，当你10年后回望这一刻，你希望你在所做的事情上做对了什么？

Andrew：十年后，我希望我构建的东西真正造福了人类，真正改善了每个人的生活质量，推动了技术进步。这就是我希望十年后能看到的。

文章来自于"Z Potentials"，作者 "Christine"。

关键词: AI新闻 , Andrew Dai , AI访谈 , 戴明博 , Elorian AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner