Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理
8826点击    2026-05-27 16:31

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理


导语


过去十年,大模型世界里很多最关键的技术路线背后,都能看到Andrew Dai的身影。从早期预训练与监督微调,到后来主流的MoE(Mixture of Experts)架构;从Google Brain最初只有几十人的研究时代,到后来支撑Gemini的大规模数据体系,这位在 Google 工作超过14年的研究科学家,几乎站在了大模型时代每一次关键转折的现场。


但相比“论文作者”这个身份,Andrew在行业里更稀缺的地方在于:他同时站在研究、系统与产品三条线的交汇处。他从Google Brain、Google Research,到后来的Google DeepMind,一路参与了从PaLM到Gemini的大模型演进,并在Gemini时期开始负责最核心的数据体系。也亲眼见证了大模型从“研究项目”,变成真正影响全球产业的基础设施。


但真正让人意外的是,在整个行业仍然沉迷于“更大的语言模型”“更强的代码能力”时,这位长期深耕语言模型的人,却越来越频繁地谈论另一件事——视觉推理(Visual Reasoning),并开启他新的创业征程——ElorianAI。


在Andrew看来,今天的大模型其实并没有真正“理解”世界。它们会生成漂亮的图像、流畅的文字、惊艳的视频,也能写代码、做总结、完成复杂对话。但这些能力背后,很多时候仍然只是“看起来像理解”。


“如果你让模型生成一个装有10个球的盒子,再问它里面有几个球,它依然可能答错。”这个听起来近乎荒诞的例子,恰恰是Andrew最在意的问题之一。


因为在他看来,现在几乎所有Frontier Model,本质上都仍建立在“文本空间”中进行推理。但现实世界并不是文本构成的。人类在拥有语言之前,就已经具备空间感知、物理理解和视觉推理能力。动物捕猎时,需要理解速度、轨迹、重力和空间关系;工程师设计汽车时,会不断画图;物理学家思考宇宙时,也依赖视觉化结构,而不是纯文本。可今天的大模型,仍然缺少这种最底层的“世界理解”。


这也是为什么,在离开 Google 之后,他没有选择再做一个“更大的语言模型”,而是转向视觉推理与多模态理解,创办了Elorian。


访谈中,Andrew反复提到一个词——“Jagged Frontier(锯齿状前沿)”。在外界关于AGI的讨论里,人们总习惯把AI能力想象成一条平滑上升的曲线:某一天,模型突然全面超越人类。但在Andrew看来,真实世界并不是这样。AI的能力增长,更像一片极不均匀的“锯齿状前沿”——某些领域已经远超人类,比如围棋、国际象棋、代码;而另一些极其基础的能力,比如计数、空间理解、物理关系,却依然脆弱得惊人。问题在于,人类往往会在AI表现出“超人能力”后,误以为它已经真正理解了一切。


“也许未来最危险的,不是AI不会思考,而是人类误以为它已经会思考。”他说。这也是为什么,他越来越相信:下一代真正重要的AI能力,不会只发生在文本世界,而会发生在视觉、多模态以及现实物理世界之中。


在这场对话里聊到了 Google Brain 最早期的研究文化、PaLM 2诞生时内部真正的思考、Gemini时代关于架构与安全的争论,也聊到了世界模型、视觉推理、机器人、开源与闭源、Frontier Labs 的未来,以及他为什么认为:今天的大模型,其实还远远没有真正理解这个世界。


以下是本次访谈的内容实录,本次访谈音频版首发于英文访谈播客《Present》,主持人是Christine Qing,过去十年参与过自动驾驶、机器人领域的创业和早期投资,做过技术商业化,也陪跑过从零到一的增长。


本期嘉宾介绍:


Andrew M. Dai(戴明博),Elorian AI创始人,剑桥计算机本科、爱丁堡机器学习博士,在 Google 工作超过12年,先后在 Google Brain、Google Research 到 Google DeepMind 担任核心角色,最终升任 Research Scientist Director(研究科学家总监)。


在Google期间,他还深度参与了几乎所有的大模型训练,从Plam到Gemini1.5和Gemini2.5。在谷歌他与Quoc V. Le共同撰写了第一篇关于语言模型预训练和监督微调的论文《Semi-supervised Sequence Learning》,为GPT的诞生奠定基础。他的另一篇奠基性质论文是《Glam: Efficient scaling of language models with mixture-of-experts》,为现在主流的MoE架构趟开了道路。他在2023年开始负责领导Gemini的数据板块(包括合成数据)。


Highlight


  • 真正争论得比较激烈的,其实是架构。比如,我们是否应该继续使用autoregressive(自回归)和causal attention(因果注意力)这种标准架构。这些技术路线上的讨论,在项目早期非常激烈。


  • 我认为更值得担忧的问题其实是:未来的AI Agent如何避免被攻击或接管。如果AI Agent能够读取邮件、浏览网页、自动做研究,那么在传统计算机科学里,这些都属于“未经清洗的输入”(unsanitized inputs)。


  • 其实融资太多,对员工未必是好事。美国有一些税务政策,会让早期加入公司的员工获得非常好的收益。但如果你一开始就融太多钱,员工反而会失去这些优势。所以对我们来说,“照顾员工”这件事非常重要。不是只有创始人才应该享受成长红利。


  • 现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士,比如导演、摄影师、艺术家,一眼就能看出问题。比如:“这个人为什么有六根手指?”所以我们现在的阶段,其实只是“看起来像理解”。模型本身并不真正理解自己生成了什么。


  • 我认为:未来会是“专精化Frontier Model”的时代。我们现在做的事情,就是构建一个专门针对多模态推理优化的模型。从数据、架构、算法,到强化学习(RL),全部围绕多模态reasoning设计。


  • 现在的世界模型,大概相当于语言模型二十年前的阶段。那个时候,我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。


  • 目前大多数关于AGI的讨论都建立在「平滑前沿」的假设上——我们相信会有一个阶跃式的变化,从今天模型在大多数事情上远不如人类,到也许明年在一切事情上都全面超越人类。但现实可能不是这样。我在过去十年的发展中看到的是,这是一个高度锯齿状的前沿,几十年前就有了超人级的国际象棋玩家。


01 从40人Google Brain到Gemini:戴明博亲述Google早期AI发展关键节点


Christine Qing:欢迎本期的嘉宾Andrew Dai。他在 Google Brain 以及后来的DeepMind Gemini团队工作了近14年,参与构建了当今最具影响力的一些基础AI系统。现在,他正在创办自己的公司 —— Elorian。Andrew,你在Google Brain和后来的DeepMind工作了近14年。在那段时间里,你和Jeff Dean、Ilya等人一起,构建了许多基础性的AI系统。很多人后来选择继续留在大公司,也有人开始自己的旅程,创办前沿实验室或 AI 应用公司。能不能在这一刻,和我们聊聊过去这十几年里,你个人以及整个行业真正发生了什么?


Andrew:那是一个充满想法和创新的时代。当时Google Brain的规模还很小,大概只有40到50人,所以整个环境非常开放,大家都会分享自己的想法。有些想法很有趣,但没有成功;有些则真正产生了影响。整体来说,那段时期特别容易诞生新的突破。你可以从当时的论文中看出来,比如 Sequence to Sequence,以及很多后来成为今天AI基础的工作,包括预训练与微调论文、Transformer论文等,几乎都集中出现在同一个三到四年的时间窗口里。


Christine Qing:你们当时是怎么组织团队的?是按照不同研究方向划分小组,大家一起碰撞想法?还是从一开始就有一个非常明确的目标?


Andrew:我觉得一开始并没有特别明确的目标,但Google Brain和其他实验室最大的不同在于,我们非常强调“真正影响用户、真正落地到Google 产品”这是核心驱动力之一。比如Sequence to Sequence,很明显推动了机器翻译的发展。而今天几乎所有人都在使用序列建模或者语言建模技术,那条通向产品的路径一直是真实存在的。没有人只是为了增加论文引用量而写论文。我们的目标是真正把东西做出来,论文只是过程中自然产生的副产品。


Christine Qing:你后来去了Google Health做了几年,还在GoogleI/O上发布过产品。你一直都在做基础研究,同时也不断尝试把AI真正落地。在2023年AI真正爆发之前,你大概经历了多少次这样的尝试?


Andrew:我们做了很多事情,成功的有,但失败的更多。我参与过Smart Reply和Smart Compose,大概是在2016到2018年之间。之后不久,Google Health从Google Brain中独立出来。我当时的职责,是研究如何利用深度学习更好地理解医疗健康记录。但那时候,我们还没有真正把模型规模扩展起来。虽然我们已经开始尝试使用语言模型,但模型实在太小了,几乎什么都做不了。不过现在已经不同了。越来越多公司开始在医疗领域使用语言模型,而且确实开始奏效。


Christine Qing:当时真正的瓶颈是什么?因为医疗系统本来就是最难获取数据的领域之一。如果你想扩大模型规模,就需要更多数据。所以问题究竟卡在哪里?是数据的问题,还是系统本身的问题?


Andrew:两方面都有。一方面是数据。由于HIPAA等隐私法规,医疗数据非常难共享。另一方面则是模型规模。当时的模型和现在的基础模型相比,小太多了。


Christine Qing:ChatGPT出现之后,整个行业都开始加速。我记得你从2022年开始,共同负责GLaM和数据团队。在那个阶段,你是什么时候开始真正意识到:AI已经不再只是研究,而是在对全球经济产生实际影响,并开始走向AGI时代?


Andrew:我觉得转折点是PaLM 2,当时项目名字还叫GLaM。我当时主要负责预训练和架构工作。PaLM 2一开始还是一个非常纯粹的研究项目,但到了后期,结合整个行业的发展,我们已经非常清楚:Google当时必须拥有这个模型。如果没有PaLM 2,Google会明显落后。幸运的是,PaLM 2最终成为了一个非常优秀的模型。它是我们当时最顺利的一次预训练过程之一。


当然,中间也发生过一些意外。比如感恩节那天,我突然发现磁盘空间快满了,于是整个感恩节晚上,我都在复制checkpoint、删除文件。幸运的事训练最终没有中断。训练完成之后,我们发现这个模型真的非常出色,比当时其他模型都强很多。那个阶段对标的还是GPT-3。后来,它被部署到了很多产品中。


那也是我第一次真正意识到:一个模型居然可以同时部署到三四十个产品里。更让我惊讶的是速度。训练结束后仅仅几周到几个月,它就已经无处不在了。这在Google其实非常罕见。


Christine Qing:那当时内部真正的争论是什么?因为在外界,当时关于AI的伦理、安全、人类未来等问题已经开始大量出现。很多讨论都在问:“AI会不会真正颠覆人类?”“这样做在伦理上是否正确?”这些都是当时新闻里最热门的话题。但在真正的会议室里,你们讨论的到底是什么?有没有一些没有进入公开论文、也没有进入公众讨论的事情,是你现在可以分享的?


Andrew:在PaLM 2时期,公众层面的安全讨论确实越来越多。但在公司内部,其实已经建立了比较成熟的安全委员会和安全机制。训练完成之后,模型会经过专门的安全处理流程。所以关于“要不要做安全”这件事,本身并没有太多争论。


真正争论得比较激烈的,其实是架构。比如,我们是否应该继续使用autoregressive(自回归)和causal attention(因果注意力)这种标准架构。这些技术路线上的讨论,在项目早期非常激烈。但到了后期,关于安全本身,已经基本有成熟政策和规范来保证模型对用户足够安全了。


Christine Qing:从宏观角度来看,Google是一家非常成熟的大公司,已经有完整体系来处理安全问题。但现在的Frontier Labs完全不同。他们都在高速竞赛。你觉得目前行业里的安全措施真的足够了吗?尤其是现在,中国模型也在快速崛起。比如之前还有人讨论Anthropic指责Kimi蒸馏他们模型的事情。Google有成熟体系,但这些Frontier Labs呢?从你的观察来看,你怎么看现在的局面?


Andrew:我认为目前的安全工作还远远不够。现在这些模型依然可以被jailbreak(越狱)。目前的安全机制,其实主要是保护普通用户,但对于真正有技术能力的人来说,很多限制依然能够被绕过。不过,我认为更值得担忧的问题其实是:未来的AI Agent如何避免被攻击或接管。如果AI Agent能够读取邮件、浏览网页、自动做研究,那么在传统计算机科学里,这些都属于“未经清洗的输入”(unsanitized inputs)。


而语言模型有一个根本问题:它无法真正区分“来自互联网的信息”和“用户真正的指令”。这里其实存在非常严重的安全漏洞。再加上模型越狱本身并不需要太高技术门槛,我认为,在真正把这些系统投入关键场景之前,我们还需要更多研究与理解。


Christine Qing:你在Google待了将近14年。我猜,离开这样一家机构,对你来说一定不是一个轻松的决定。你和Google的职业关系非常深。所以,最终到底是什么让你真正走出了那扇门?


Andrew:我觉得最核心的是:时机(timing)。对于任何一家创业公司来说,时机都至关重要——ChatGPT出现的时间点就非常完美。模型已经足够成熟,同时整个行业也开始加速。我当时看到的是一个基础模型正在进入一个非常特殊时期的阶段。去年,本质上是“开源模型之年”。开源模型开始快速逼近闭源模型的能力。


这意味着:一家新公司,几乎从第一天就能开始真正做研究。我们不需要重新搭建全部训练基础设施。不需要从零开始准备预训练数据。不需要重新训练所有基础能力。这些东西已经存在了。这极大降低了行业门槛。而且我当时有一种很强烈的感觉:这样的窗口期,不一定会长期存在。因为从经济角度来看,让开源模型长期维持如此高的水平,其实并不合理。训练这些模型的成本太高了。因此,很多模型又重新走向闭源。所以我当时觉得:这是一个真正的“黄金机会窗口”。


另一个原因是Gemini的发展——我越来越明显地感觉到文本能力已经非常成熟了。在很多benchmark上,模型已经达到甚至超过人类水平。而整个行业的关注点,也开始越来越集中在coding上。我认为coding是一个非常重要的方向,市场也很大。我从十岁就开始写代码了,但我始终觉得世界不只有coding。


工程世界里还有太多领域,几乎没有被AI真正改变。很多人会说:“AI对我的行业根本没什么影响。”但如果你仔细观察,会发现原因其实是:那些行业需要真正强大的视觉推理能力。比如设计火箭,或者设计汽车电池。那并不是一堆方程式。你真正做的是:在CAD软件里画结构、设计形状、优化空间。而现在的大模型,根本无法真正理解这些东西。


最后一个非常重要的原因,是团队。我最早和Quoc Le写预训练与微调论文时,只有两个人。后来做GLaM,大概十个人。再后来做PaLM,核心团队大概三四十人。但现在的Gemini,规模已经比当年大了几个数量级。而与此同时,我看到很多中国开源模型团队。他们人数很少,但进展极快。这让我意识到:真正高效的AI团队,不一定需要巨大规模。


我现在越来越相信:正确的方式,是一支非常专注、世界级的小团队,加上充足算力。只有这样,才能真正快速迭代,而中国团队,某种程度上证明了这一点。


Christine Qing:你去年离开Google的时候,我第一反应其实是:你是不是要做另一个Frontier Lab?会去训练自己的大模型。但你最终选择的是视觉推理(visual reasoning)。为什么?你明明完全有能力募集一轮超大融资,训练自己的基础模型,但你却选择了视觉推理这条路。背后的逻辑是什么?


Andrew这里面其实有很多原因。首先,我不是说我们不在构建前沿模型,我们依然是在构建世界级模型,但问题在于:怎么到达那里。现在AI行业变化太快了。如果一家新公司成立之后,要等两年才发布第一个模型,那基本已经太晚了。行业会直接把你忘掉。所以我们希望能够非常快速地展示真正的进展,而且是大家都能看见的进展。这也是为什么我们融资速度特别快。从公司注册到签署term sheet,整个过程不到一个月。因为我们相信,AI的发展速度已经快到连一周都不能浪费。


还有一个创业者很少公开谈论的点:其实融资太多,对员工未必是好事。美国有一些税务政策,会让早期加入公司的员工获得非常好的收益。但如果你一开始就融太多钱,员工反而会失去这些优势。所以对我们来说,“照顾员工”这件事非常重要。不是只有创始人才应该享受成长红利。我们希望团队里的每个人,都能真正参与这段从零开始成长的旅程。如果一家公司刚开始估值就已经很高,那么后加入的人,其实已经失去了“从0到10亿美元”的成长空间。我始终认为:归根结底,最重要的不是模型,不是权重,而是你招进来的那些人,你的团队。


很多公司的文化,本质上就是CEO和高管人格的投射。我们一直强调:我们是一支“人才密集、低ego”的团队。而这正是优秀团队能够形成的关键。


02 现在的世界模型约等于二十年前的语言模型


Christine Qing:能不能具体解释一下:什么是视觉推理?你之前说,现在很多Frontier Labs在多模态上的能力,其实还停留在“三岁小孩”的阶段。那么,从今天的大模型,到你们正在构建的视觉推理模型,中间真正缺失的那一层到底是什么?


Andrew:现在很多公司都在专注于多模态生成。比如VEO、Imagen、ChatGPT Image 2.0、Project Genie。这些模型都很强,它们能够生成非常漂亮的图像、接近电影级的视频。但问题在于:“生成”不等于“理解”。其实语言模型的发展过程也经历过类似阶段。早在十年前,我和Oriol Vinyals、Quoc Le做聊天机器人研究时,即便是很小的LSTM模型,如果你问它:“人生的意义是什么?”它也能给出看起来很合理的答案。但那并不意味着它真的理解。


现在的多模态模型其实也是一样。它们能够生成看起来非常真实的图像和视频。普通用户已经很难分辨真假。但真正的专业人士,比如导演、摄影师、艺术家,一眼就能看出问题。比如:“这个人为什么有六根手指?”所以我们现在的阶段,其实只是“看起来像理解”。模型本身并不真正理解自己生成了什么。


比如你让模型生成一个装有10个球的盒子,然后再问它:“盒子里有几个球?”它很可能回答错误。这就是目前Frontier Labs普遍忽略的问题:生成能力已经非常强了,但理解和推理依然很弱。


Christine Qing:现在很多投资人会担心:任何AI创业公司,最终会不会都被Frontier Labs吞掉?大家会觉得,Anthropic、OpenAI这些公司能力无限扩张。既然视觉也是大市场,那你会不会最终也被这些巨头覆盖?


Andrew:在这个时代,没有什么是不可能发生的。我不会给任何事情赋予“零概率”。


但我们观察到一个非常重要的问题:多模态能力与代码能力之间,其实存在根本性的张力。我们发现:当你加入大量多模态数据时,模型的coding能力往往会下降;反过来也一样。为什么会这样,现在还需要更多研究。但它至少说明了一件事:很难用一个模型,同时把多模态和代码都做到极致。


所以我认为:未来会是“专精化Frontier Model”的时代。我们现在做的事情,就是构建一个专门针对多模态推理优化的模型。从数据、架构、算法,到强化学习(RL),全部围绕多模态reasoning设计。而我认为,其他实验室如果同时还想把coding能力做到极致,会非常困难。这两者之间,存在根本性的冲突。


Christine Qing:所以现在其实还没有真正的结论。


Andrew:没人知道未来一定会怎样。但我们相信:如果你真的想实现优秀的多模态能力,那么“专精模型”是必要的。


Christine Qing:那视觉推理和世界模型(World Model)之间,真正的关系是什么?LeCun这些年一直在强调 World Model和JEPA,而不是简单的next-token prediction。你怎么看?


Andrew:我觉得,现在的世界模型,大概相当于语言模型二十年前的阶段。那个时候,我们知道自己想构建某种具备高级能力的系统。但没人知道它最终会变成什么。二十年前,语言模型还是n-gram模型。没有任何人相信语言模型未来会成为整个AI的基础。真的,一个人都没有。


我甚至记得,当年在Google Brain,还有人问:“做语言模型到底有什么意义?”那时候语言模型唯一的用途,就是语音识别解码。除此之外,几乎什么都做不了。但后来,我们开始意识到:这不仅是语音识别技术。它其实是下一代AI的基础。


所以现在我看JEPA,也会有类似感觉。比如现在很多世界模型还只能在单GPU上运行。这其实有点像几十年前的语言模型阶段。我认为它们距离真正成熟,还有非常长的路要走。


但我最大的担忧是:很多World Model路线,忽视了过去十年基础模型已经积累下来的技术与知识。我认为正确的方向,不是完全推倒重来。而是:在现有基础模型上,融合新的架构、新的方法,并继续扩展能力边界。这也是我们正在做的事情。我们并不是否定过去十年的基础模型,而是希望把它们延伸到下一代reasoning——也就是视觉推理与多模态推理。


Christine Qing:最近很多人都会问我:Fei-Fei Li的World Labs世界模型,和LeCun在Meta做的世界模型,到底有什么区别?你能不能给一个比较通俗的解释?


Andrew:也许我可以借用另一位研究这些模型的人说过的话。他说:Meta的模型,本质上更像是一个“4D时空表示模型”。而World Labs现在更接近“视频生成模型”。


但如果从更高层的哲学来看,其实两者很相似。它们都想做同一件事:构建一个能够“表示世界”或者“生成世界”的模型。也就是说,它们都希望AI能够理解并生成一个完整的虚拟世界。而且,两边都认为:视觉是实现这一切的核心路径。


它们未来想落地的应用场景,其实也会有很多重叠。真正不同的,更多是技术细节。甚至还有一些人认为World Labs做的其实根本不算真正的“世界模型”。


Christine Qing:那回到更核心的问题。你认为今天的大语言模型,从根本上缺失了什么?而这些能力,未来的视觉推理模型、多模态模型或者世界模型,谁会真正拥有。


Andrew:从长远来看,我认为问题不在某一个具体组件。不是objective(目标函数)的问题。也不是architecture(架构)或者algorithm(算法)的问题。问题在于:整个系统的哲学本身。


今天所有Frontier Model的核心哲学,基本都是:把所有东西塞进同一个模型,包括文本、强化学习、安全机制、推理能力,而且所有推理,最终都发生在“文本空间”里。但真正的问题是:推理本来就不是一种纯文本能力。在人类发明语言之前,我们其实早就具备推理能力了,动物也一样。


捕食者需要推理:重力、风向、猎物运动轨迹、空间关系,这些推理都不是文字完成的,它们是视觉和物理世界中的推理。所以我认为:对于人类和动物来说,真正的reasoning substrate(推理底层基质),其实是视觉和多模态。而文字推理,只是后来建立在其上的高级抽象。但现在的大模型,全部建立在文本空间之上,而文本空间天然缺少很多现实世界中的关系。比如:如果你旋转一个物体,它依然是同一个物体。如果你把头转过去,看不到那个东西了,它其实依然存在。这些关系,在视觉世界中是天然存在的,但在文本embedding空间里,并不存在。


再比如,如果桌上有9个球,你移动一下,它依然还是9个球。如果再扔进去1个球,那现在就是10个。这些关系本质上来自物理世界,而不是来自文字世界。文本世界,本质上只是一个embedding的世界。所以现在模型最大的缺口,其实就在这里。而我们正在做的,就是填补这个缺口,去构建下一代reasoning。


Christine Qing:你过去几乎整个职业生涯都在做语言模型,现在却转向视觉。语言模型时代积累的架构、算法和 know-how,真的可以迁移到视觉吗?


Andrew:这是个非常好的问题,但我会反驳“我一直在做NLP”这个说法。很多人不知道的是,其实我从来没有接受过传统NLP训练。我没有学过parse tree、dependency parsing这些经典NLP内容。


我和很多深度学习领域的人都相信:从深度学习角度来看,语言和其他模态之间,其实不应该存在根本差异。这一点,其实在我们最早的预训练与微调论文里就已经体现出来了。当时我们不仅做了语言实验,也做了图像实验。


我们发现:next-token prediction在图像上同样有效。虽然效果不如语言明显,但它确实能训练出非常优秀的图像分类器,最近也有很多论文重新开始研究这一点。所以从根本上,我认为语言和视觉并没有本质区别。真正的区别在于——“文字的经济价值”更容易被看到,因为整个世界本来就建立在文本之上。我们相信:视觉世界、多模态世界,依然存在大量尚未被开发的价值。而且不仅仅是视觉任务本身。


如果你仔细观察人类思考过程:即便是在写代码时,我们其实也在“视觉化”。比如向VP解释系统架构时,我们会画图,用框、箭头来表示连接关系。物理学家思考时空、光锥、引力透镜时,也一直在画图。几乎没人会只用纯抽象数学去思考这些问题。因此,真正复杂的reasoning,本质上都需要visual grounding(视觉落地)的。这也是为什么我们认为视觉推理不仅会帮助视觉任务本身,还可能帮助:完成更复杂的软件系统设计、更完整的coding system、数学与几何问题、长文档生成、大型报告撰写等等。


Christine Qing:我在机器人行业待了十多年。机器人领域一直有一个核心问题:它们无法真正自主理解、推理、适应环境。所以你觉得:视觉推理会不会成为真正把这些能力连接起来的关键层?


Andrew:现在机器人领域已经有很多VLA(Vision-Language-Action)模型。但我认为:视觉推理这一层依然非常薄弱。现在这些模型甚至还不会真正“数数”或者简单地摆餐桌,所以在实现真正可用的机器人之前,视觉理解仍然需要大量突破。而且不仅仅是模型问题。硬件控制也是当前机器人行业的一大瓶颈。


Christine Qing我感觉现在中国在硬件控制上的进步特别快。而美国更多在做底层intelligence layer(智能层)。所以视觉推理,很可能会成为真正连接两边的关键组件。


Andrew我完全同意。视觉推理一定是优秀机器人系统中的关键路径之一。


03 AGI是锯齿状发展,不是线性


Christine Qing:一年多前,我组织过一次小型研究员讨论会。当时DeepSeek正在引发巨大关注。我问大家:“未来大家会不会做更多开源?”结果很多人都沉默了。因为大家都知道:维护一个真正优秀的大模型,成本极其恐怖,所以从商业角度来看,开源其实不太合理。但后来,我们又看到越来越多模型开始开放。所以你怎么看未来的开源与闭源?


Andrew:我认为,很难判断最终会达到什么平衡。但如果观察趋势,你会发现现在中国公司最强的模型,已经越来越少完全开源了。而且很多公司现在的做法是:先闭源发布。过一段时间,再开源比,如Qwen。未来这个时间差可能会越来越长,可能从几个月变成一年,因为行业正在进入一个新阶段:算力投入已经高到必须考虑商业回报。如果你花10亿美元训练一个模型,你迟早需要回收这10亿美元。否则这个商业模式根本不可持续。


有些人会默认:“等AGI出现之后,一切盈利问题都会自动解决。”但我并不认同。很多人说:“我们已经接近AGI了。”但如果真到了AGI,为什么还要不停融资?这本身就是一个值得思考的问题。所以我才说:去年是一个非常特殊的窗口期。因为那更像是一场“开源竞赛”。大家为了争夺用户,被迫开放模型。但未来,竞争逻辑可能会改变。从“争夺用户”,变成“争夺AGI”,一旦进入这个阶段,公司的开源策略会发生巨大变化。只需要几家头部公司宣布:“我们以后不再开源最强模型了。”整个行业都可能发生连锁反应。


Christine Qing:你的意思是未来最强大的模型,会越来越深入垂直领域,比如药物研发、科研、工业设计。这些模型会创造真正巨大的商业价值,因此也会越来越闭源。而开源模型,则更多存在于应用层与日常场景。


Andrew:我觉得这个判断基本是对的。因为模型越大,成本增长并不是线性的。一个两倍大的模型,成本可能远远不止两倍,所以对于公司来说:继续开源小模型,其实是合理的。因为成本可控、对品牌有帮助、对社区关系有帮助、对营销有帮助


但最大的Frontier Model是否继续开源?我认为很多公司都会重新思考这个问题。尤其是在算力成本持续上涨、内存成本上涨、GPU成本不断上的情况下。当然,开源永远不会消失。开源社区依然极其重要。比如本地LLaMA社区,他们不断迭代、实验新架构、新技术这些都非常有价值。


所以我认为:开源会继续存在。但它未来的形态,可能不会再像2025年那样了。


Christine Qing:说回到Elorian,你之前提到你们既想建立研究机构,也想做真正可见的产品里程碑。那你们接下来的产品到底是什么?能不能具体讲讲你们roadmap上下一阶段的目标?


Andrew:从里程碑来说,我们的目标是构建真正的Frontier Visual Reasoning Model(前沿视觉推理模型)。其实我们已经开始了。目前在某些视觉推理benchmark上,我们已经取得了一些非常不错的结果,甚至达到了SOTA(state-of-the-art)。但我们的目标并不是只在一个benchmark上领先。在正式发布之前,我们希望在更多维度上达到真正领先。


Christine Qing:所以你们会正式发布模型?


Andrew:会。我们计划在今年晚些时候公开发布模型。前提是——我们认为它已经“足够好”。在正式发布之前,我们也会给一部分合作伙伴提供early access。


Christine Qing:那你们最理想的合作伙伴是谁?如果按行业来分,前三个最想合作的领域是什么?


Andrew:我觉得工程类公司会非常有意思。因为我们认为:视觉推理真的有机会推动工程技术本身的发展。而很多技术突破,本质上其实都是工程问题。


Christine Qing:这里的工程是指软件、硬件还是机械?


Andrew:除了纯软件之外几乎所有工程领域。其实我父亲本身就是机械工程教授,所以我可能天然对这些领域会更有感情。


我们真正想合作的,是那些:“视觉推理能力会直接决定公司核心竞争力”的企业。因为我们希望真正帮助这些公司更快运作、更高效设计更快研发、构建更优秀的产品。所以工程行业、建筑行业、工业设计行业这些都非常有吸引力。


我们真正想找的合作伙伴是能够理解“模型不是一夜之间造出来”的人。构建这些系统,需要:数据、算力、时间、持续迭代,它是一个长期过程。我们希望找到愿意一起走这段旅程的人。而不仅仅是“买一个API”。


更重要的是这些合作伙伴,也能够反过来影响模型本身。比如:数据配比、模型方向、reasoning重点。这样我们最终才能真正做出“对他们实际有价值”的模型。


Christine Qing:你亲眼见证了语言模型从最初几个人的小研究项目,发展到今天整个行业的规模。有没有一个你始终觉得在AI或AGI讨论中,被严重低估或忽视的问题?以及你认为未来真正会发生什么?


Andrew:我觉得现在关于AGI最大的问题之一是:大家没有真正认真讨论“Jagged Frontier(锯齿状前沿)”。以及它的短期和长期影响。目前大多数关于AGI的讨论都建立在「平滑前沿」的假设上——我们相信会有一个阶跃式的变化,从今天模型在大多数事情上远不如人类,到也许明年在一切事情上都全面超越人类。


但现实可能不是这样。我在过去十年的发展中看到的是,这是一个高度锯齿状的前沿,几十年前就有了超人级的国际象棋玩家。十年前有了超人级的围棋选手。还有超人级的《星际争霸》玩家。这些都发生在特定领域、特定垂直行业、特定任务和细分领域,现在我们在代码方面也看到了。但这些进展的影响是极不均等的,拥有一个超人级的象棋选手,和拥有一个超人级的程序员,是完全不同的事情,经济影响不同,对世界、对行业的影响也不同。


所以我认为,关于哪些领域适合优先达到超人水平、哪些领域不适合早早达到超人水平,讨论和辩论远远不够,你从某些事情上已经能看出一点苗头——现在我们在黑客攻击方面有了超人级能力。也许我们并不真的希望这样。


但我们该如何应对,如果下一个超人级能力是「撒谎」或「欺骗」呢?不管我们愿不愿意,它都会发生。这些对人类能力的蚕食将是不可预测的,会出现在我们没有预料到的领域。还有AI真正落后的领域,比如计数。关于这方面几乎没有什么讨论。这真的会产生影响,你可以想象,每个人家里都有一台人形机器人,机器人在做手术、在做安全关键应用,比如驾驶,开拖拉机或驾驶飞机。但在一次非常关键的任务中,比如,我们需要确认所有人都从潜艇出来了,而机器数出4个人出来了,但实际上只有3个人出来了,这就是「锯齿状前沿」的典型例子——AI看起来很厉害,但在这一个极为关键的能力上落后了,而没有人注意到,人们把这件事忘了,然后发生了非常糟糕的事情。


所以这就是我担忧的——没有足够的理解,没有足够真实、客观地看待这件事:进步在哪里发生?进步在哪里没有发生,人们只是在说进步是否在发生。但归根结底,我认为,对这个行业真正有破坏性的是:对这些模型仍然欠缺的地方没有足够的理解。


这也是我创立这个实验室的原因之一——对那些人来说很好,但从长远来看,如果它集中在少数几个人手里,对世界来说并不好。


Christine Qing: 最后一个问题,当你10年后回望这一刻,你希望你在所做的事情上做对了什么?


Andrew: 十年后,我希望我构建的东西真正造福了人类,真正改善了每个人的生活质量,推动了技术进步。这就是我希望十年后能看到的。


文章来自于"Z Potentials",作者 "Christine"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner