坐拥世界最大的搜索业务,谷歌一直独步于硅谷。搜索所带来的丰厚广告收入,让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里・(Larry Page)可以退居二线,安心享受生活。
1997 年 9 月 15 日,谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。
直到 2022 年底,ChatGPT 火遍全球,原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来,我们似乎习惯了这家科技巨头作为「追赶者」出现。
从去年开始,就有媒体爆料,称谢尔盖・布林已经重返一线,亲自编写代码。前 CEO 埃里克・施密特(Eric Schmidt)更是在斯坦福大学的讲座中直接向「每周只上一天班」的散漫制度开炮:「输给 OpenAI,再下去要输创业公司了」。
施密特在斯坦福演讲
同时,随着谷歌的体量越来越大,一些「大公司病」的症状也越发明显。许多谷歌的离职「小作文」显示:谷歌问题的根源不是「技术」,而是在于「文化」,比如员工的使命感不足,公司为了避免风险设置了繁琐的系统和流程。
AppSheet 创始人 Praveen Seshadri 宣布离开谷歌,他的博客称,公司已迷失方向,员工被困在系统里。
谷歌到底出了什么问题?Alphabet 工人工会表示:「真正阻碍谷歌员工每天工作效率的是人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」
虽然谷歌在「ChatGPT 反击战」迎头赶上,但和 OpenAI 评论区下期待 GPT-5 发布的画风有些不同,Gemini 亮相时,总会在不经意间「翻车」。首次发布就出现了 demo 造假,此后,Gemini 也因生成的人像图片存在种族偏见,建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士,挨了不少批评。
上个月,谷歌发布了加强版的 Gemini,还推出了对标 GPT-4o 的语音助手 Gemini Live,但在演示环节,Gemini Live 还是出错了。
在 8 月举办的 Made by Google 活动上,前两次试用 Gemini Live 的拍照识图功能都失败了,直到第三次换手机才成功。
明明已经财富自由,为什么还要重返技术一线?频频「翻车」的 Gemini,谷歌内部如何看待?在科技巨头的竞争中,谷歌存在什么问题?在这场竞争中又将扮演怎样的角色?在昨天举办的 All-In 峰会现场,久未在媒体前露面的谢尔盖・布林在一场访谈中聊了聊他的看法。
布林的主要观点为:
以下是访谈全文:
布林:我本来以为我只是来参加一个播客,没想到现场有这么多观众,恭喜你的事业这么成功,整得我都有点害羞了。
主持人:感谢您抽空和我聊天。当今,AI 正处于改变世界的临界点。1998 年,你和拉里(Larry Page)成立了谷歌。听说最近你亲自上阵,在谷歌研究 AI。大型语言模型和对话式 AI 工具对谷歌搜索来说是一种威胁,这是许多行业分析师和专家争论的话题。所以你现在每天在谷歌坐多长时间的班?都在做什么?
布林:老实说,我几乎每天都去上班,不过今天因为要上你的节目,所以缺席一天。作为一名计算机科学家,我我从未见过像最近几年 AI 领域这样激动人心的进展。AI 的进步实在是太震撼了!
回想 90 年代,我还是研究生时,AI 在课程中几乎无足轻重,充其量不过是教材中的一个脚注。课本里讲的是,前人做了各种各样的试验,但是 AI 真的不起作用,搞 AI 就是「死路一条」。这就是关于 AI 你需要知道的一切。
然后不知怎的,奇迹般地,这些研究神经网络的人,让在 60、70 年代被丢弃的 AI 方法开始取得进展 —— 更多的计算,更多的数据,更聪明的算法..... 过去的十年里发生的事情简直令人惊叹。如今的 AI 工具,几乎每个月都能展现出全新的能力,而且这些能力很快就能翻倍。计算机展现出的能力着实令人惊叹。因此,我决定重返技术前线,因为我不愿错过作为计算机科学家所能体验到的这一切。
主持人:你觉得 AI 是搜索的延伸,还是它将重新定义人们检索信息的方式?
布林:我认为 AI 触及着日常生活的方方面面,搜索是其中之一。AI 的影响力几乎无所不包,例如编程。我现在对 AI 编程有所改观。从头开始编写代码,真的很难,特别是和指挥 AI 编程对比起来,对吧?
主持人:你都用 AI 编写了什么呢?
布林:事实上,我自己也写了一点代码,不过只是为了找点乐子。我有时也让 AI 为我写代码,体验很有趣。举个例子来说,我想知道谷歌的 AI 模型玩数独(Sudoku)玩得怎么样。于是,我让 AI 模型自己写了很多代码,可以自动生成数独谜题,然后再把这些题喂给 AI,拿去评分。AI 完全能够胜任编写这些代码的任务。
但当我和工程师们谈论这件事的时候,来回辩论了几轮,结果我半小时后回来,发现 AI 已经完成了。他们很震撼,很显然,他们并不像我所认为的那样,经常使用 AI 工具来辅助编码。
数独游戏(Sudoku)
主持人:这太好笑了。有的模型擅长解数独题,有的模型可以回答我世界中的事实信息,有的模型专用于设计房子。同时,众多研究者正致力于开发通用的大型语言模型。你认为未来将会朝着哪个路线发展呢?
我也不知道这种说法从何而起,说将会有一个「上帝模型」。这就是为什么投资人都在往 AI 里砸钱,一旦「上帝模型」被研发出来,那你就能「一步登天」了,当你拥有 AGI,你可以统治所有事物。或者有很多基于特定应用的小模型,在智能体中协作。你认为未来的模型开发与应用将会如何演变呢?
布林:如果你回顾 10 到 15 年前,那时,不同的 AI 技术被用于解决完全不同的问题。比如,下棋的 AI 与图像生成技术就非常不同,它们各自有着很大的差异。
主持人:就像最近谷歌发了一个 GNN 模型,它的表现优于所有物理预测模型。我不确定你知不知道,但是确实是谷歌发的。
布林:太棒了,但我不知道(尴尬)。
主持人:这个模型就是一个完全不同的架构。
布林:以历史的眼光来看,AI 确实存在着多种不同的系统。以最近举行的国际数学奥林匹克竞赛(IMO)为例,谷歌的模型获得了银牌,离金牌就差一分(详情可以参考机器之心之前的报道:谷歌 AI 拿下 IMO 奥数银牌,数学推理模型 AlphaProof 面世,强化学习 is so back)。
实际上,我们采用了三种 AI 模型:一种负责定理证明,一种专注于几何问题,还有一种是通用的语言模型。然而,就在几个月前,我们开始尝试从之前的工作中吸取经验,开始将形式证明模型中的某些知识和能力融合到通用语言模型之中。
这项工作还在进行,但我认为趋势将朝着构建一个更加统一的模型方向发展。我不确定它就是所谓的「上帝模型」,但可以肯定的是,我们正在朝着某种共享架构,甚至是共享模型的方向发展。
主持人:如果这就是未来的方向,那么为了训练和完善那个超大模型,势必需要动用庞大的计算资源。
布林:算力不可或缺。我读过一些文章,它们预测算力需求将激增,从 100 兆瓦到 1 吉瓦、10 吉瓦,甚至 100 吉瓦。我对此持保留意见。近年来,算法的创新和优化,已带来比增加硬件算力更显著的性能提升。
主持人:那么,当前对算力的大量投入不合理吗?每个人都在谈论英伟达的收益、利润、市值。它支持了超大规模计算和基础设施的增长,使得构建这些庞大的模型成为可能。这种趋势真的没有道理吗?或许它确实有道理,要不然为什么英伟达能赚这么多?
布林:首先声明,我并非经济学家或市场分析师,我的观点仅基于计算机科学家的视角。对我们来说,因为面对巨大的需求,我们正在尽可能快地构建算力集群。比如,谷歌云的客户只想要大量的 PPU、GPU,应有尽有。我们不得不拒绝客户,因为我们自己卡不够用,我们内部也依赖这些资源来训练和部署我们自己的模型。因此,我认为各大公司目前都在积极扩充算力,这都很合理。我只是觉得,很难直接从现状做出未来算力需求会从「100 兆瓦增长到 1 吉瓦、10 吉瓦,甚至 100 吉瓦」这种推断。
主持人:但企业需求就摆在那里。
布林:我明白,客户们有着广泛的需求,他们希望在各种 AI 模型上执行推理任务,并将这些模型应用于层出不穷的新场景中。他们的这些需求暂时是没有上限的。
主持人:在 AI 的应用领域,无论是机器人学还是生物学,您认为哪些方面取得了最显著的成就?有没有用例让你觉得「哇,这太有用了」?又有哪些领域挑战较大,应用落地可能比预期更久?
布林:我的答案是生物学。Alphafold 已经推出一段时间了。它已经推出一段时间,而且我与生物学家交流时发现,几乎人人都在使用它。Alphafold 的最新版本,Alphafold 3,代表了一种新型的 AI 技术。正如我之前提到的,我相信未来的趋势是模型的统一化。
对于机器人,我处于一个「wow 阶段」,比如,「哇,机器人竟然可以做家务了!」但你要知道,它背后可能只是一个微调了一下的通用语言模型,虽然它很神奇,但大多数情况下,它们还没有达到日常可以使用的水平。
主持人:你看到机器人的前景了吗?
布林:可能吧...... 但是我没有看到具体的......
主持人:但你们谷歌不是也有机器人业务吗?虽然后来被拆出去了,还被卖了。
布林:谷歌曾在做机器人的生意。
主持人:可能只是时机不对。
布林:坦白说,那可能是我们过于超前了。波士顿动力公司有那么多明星产品,但我甚至不记得谷歌做出过什么。无论如何,我们有过五六个令人尴尬的产品,但它们很酷,能给人留下深刻的印象。只是看到现在的通用语言模型有多能干,多模态技术能让机器人理解场景,想想当年还是有点傻。当时还没有这些 AI 技术,我们就像是在跑步机上原地踏步,难以向前迈进。
谷歌开发机器人的计划曾有一手好牌:「Android 之父」安迪・鲁宾(Andy Rubin),大名鼎鼎的机器人制造商波士顿动力,名动一时的人形机器人 Atlas…… 不过,就在短短五年时间里,计划解散重组,再解散再重组。高管相继离职,销售计划叫停,几大王牌公司各自卖身...
主持人:你在核心技术的研发上投入了大量时间。在产品方面,你是否也投入了相当的精力?在一个 AI 无处不在的未来世界中,人机交互的方式将如何演进,我们的日常生活又将发生怎样的变化呢?
布林:这好像在茶水间和同事聊天的话题。
主持人:介意和我们分享一下吗?
布林:不介意,我在回想一些不会令人尴尬的事情,挣扎 ing。
主持人:讲「你有一个朋友」的故事也行。
布林:未来会怎么样,真的很难讲。AI 的技术是实现应用的基础。比如有人放出了一个炸裂的 demo,特别惊艳,但从演示到真正在生产中实现,这需要时间。我不知道你是否尝试过 Astra 模型,你可以与它打实时视频,它能说出你身边环境中发生的事情。
主持人:你可以用对吧。
布林:我肯定会拿到访问权限的。有时候,我可能是最后一批获得权限的人。目前,我们已经来到了一个这样的阶段,体验了 AI 之后,人们可能会惊叹:「哦,我的天,这真是太神奇了。」然后你会思考,「好吧,它 90% 的情况下都能正确运行。」但接着你可能会质疑,「如果还有 10% 的情况下会出现错误或反应迟缓,这样的技术真的够好吗?」于是,我们必须努力去完善这些细节,确保它既迅速又可靠,等等。当这一切真正实现时,那确实是一种令人惊叹的成就。
主持人:我听说了一个故事,应该在上台之前和你通一下气的。在一次发布会之前,一群工程师向你展示了 AI 可以用来编写代码,他们说:「我们尚未在 Gemini 中部署它,因为我们想确保它不会出错。」谷歌有一些这样「犹豫不决」的企业文化。当时你说:「不,既然它能写代码,那就应该推出。」很多人都给我讲过这个故事。因为他们认为,「从你这位创始人口中听到这样的言论极为重要,这表明保守主义还没有完全占领谷歌,我们期待看到谷歌继续引领创新。」这样的描述准确吗?你真的这样说过吗?
布林:我不记得具体细节了。老实说,这确实很像我会做的事。
主持人:对我来说,这就会成为一个问题,因为谷歌的规模已经如此之大,一旦出现失误,就会损失惨重。
布林:那我还是有害怕的事的。现在语言模型的起点,要追溯到 6 年前还是 8 年前哪篇 Transformer 论文。但是这些论文作者全部都从谷歌离职了。恭喜他们!当时我们太胆小,都不敢部署 Transformer。
布林:而且无论 AI 的能力有多强大,它们有时仍会犯错误,仍会说出一些令人尴尬的话。但同时,AI 已经可以帮助我们从未做过的事情。比如我和我的孩子们一起编程,处理一些极其复杂的问题。
仅仅通过向 AI 咨询,他们就能直接上手编程,学会那些通常需要花费一个月时间去学习的各种复杂 API 和工具。这种能力近乎神奇。我们需要准备好面对一些错误,并勇于承担风险。我相信我们在这方面的应对已经有所改进。当然,你们可能已经见过很多 AI「犯蠢」的时刻了,但......
主持人:这是可以接受的。毕竟,你早已财富自由,坐拥巨额股票。我的意思是,你愿意接受这些尴尬,因为在这个阶段这么做非常重要。
布林:我这么做不是因为我的股票,好吗?但是想想我真能接受这些错误吗?这就是我们呈现给世界的神奇之物吗?我觉得我们所需要传达的是,「看,这个东西很神奇」。AI 偶尔会犯大错,但我认为我们应该及时发布,让人们去实验,看看能找到什么新应用。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。
主持人:您是否认为人工智能对世界的影响力如此深远,创造的价值如此巨大,以至于这不再是谷歌、Meta 和亚马逊之间的一场简单竞争?大家都把它看作是一场商战,但是有没有这种可能,AI 做出的蛋糕如此大,你们正在探索的领域如此广泛,远不止于谁打造了得分最高的模型,谁的 LLM 性能最出色?你如何看待如何看待 AI 带来的广阔前景,谷歌在其中将扮演怎样的角色?
布林:我认为竞争在某种程度上是非常有帮助的,因为所有科技大厂都在争夺,顺便说一下,几周前在某个排行榜上,谷歌是第一名,并且我上次检查时,我们仍然击败了顶级模型。只是......
主持人:有几个指标不好。所以你确实是在乎模型评分的!
布林:我没说我不在乎啊。ChatGPT 问世时,谷歌确实落后了一大截,现在我们已经取得了长足的进步。我对谷歌现在取得的所有进步非常满意。因此,我们肯定会密切关注模型排行榜。我认为有这么多 AI 公司存在是好事,无论是 OpenAI、Anthropic,还有 Mistral,这代表着 AI 领域正在迅速扩张,充满活力。
对于你的问题,我认为 AI 对人类来说有巨大的价值。如果回想一下我的大学时代,那时还没有我们今天所熟知的互联网,想要获取基本信息、与人沟通都需要付出巨大的努力。在手机普及之前,我们已经在全球范围内获得了巨大的能力提升,而如今的 AI 技术,无疑是另一项重大的能力飞跃。现在,几乎每个人都能以某种方式接触到 AI。我认为这是非常令人兴奋的,真是太棒了。
文章来自于微信公众号“机器之心”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner