ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谢尔盖布林:谷歌不敢用Transformer,作者全跑路了,现在我每天都在写代码
3186点击    2024-09-12 14:13


坐拥世界最大的搜索业务,谷歌一直独步于硅谷。搜索所带来的丰厚广告收入,让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里・(Larry Page)可以退居二线,安心享受生活。


1997 年 9 月 15 日,谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。


直到 2022 年底,ChatGPT 火遍全球,原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来,我们似乎习惯了这家科技巨头作为「追赶者」出现。


从去年开始,就有媒体爆料,称谢尔盖・布林已经重返一线,亲自编写代码。前 CEO 埃里克・施密特(Eric Schmidt)更是在斯坦福大学的讲座中直接向「每周只上一天班」的散漫制度开炮:「输给 OpenAI,再下去要输创业公司了」。


施密特在斯坦福演讲


同时,随着谷歌的体量越来越大,一些「大公司病」的症状也越发明显。许多谷歌的离职「小作文」显示:谷歌问题的根源不是「技术」,而是在于「文化」,比如员工的使命感不足,公司为了避免风险设置了繁琐的系统和流程。


AppSheet 创始人 Praveen Seshadri 宣布离开谷歌,他的博客称,公司已迷失方向,员工被困在系统里。


谷歌到底出了什么问题?Alphabet 工人工会表示:「真正阻碍谷歌员工每天工作效率的是人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」


虽然谷歌在「ChatGPT 反击战」迎头赶上,但和 OpenAI 评论区下期待 GPT-5 发布的画风有些不同,Gemini 亮相时,总会在不经意间「翻车」。首次发布就出现了 demo 造假,此后,Gemini 也因生成的人像图片存在种族偏见,建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士,挨了不少批评。


上个月,谷歌发布了加强版的 Gemini,还推出了对标 GPT-4o 的语音助手 Gemini Live,但在演示环节,Gemini Live 还是出错了。


在 8 月举办的 Made by Google 活动上,前两次试用 Gemini Live 的拍照识图功能都失败了,直到第三次换手机才成功。


明明已经财富自由,为什么还要重返技术一线?频频「翻车」的 Gemini,谷歌内部如何看待?在科技巨头的竞争中,谷歌存在什么问题?在这场竞争中又将扮演怎样的角色?在昨天举办的 All-In 峰会现场,久未在媒体前露面的谢尔盖・布林在一场访谈中聊了聊他的看法。



布林的主要观点为:


  • 决定重返技术前线,是因为 AI 领域的进展太过激动人心,作为计算机科学家,他不愿意错过这一波浪潮。
  • AI 技术不只是搜索的延伸,它将触及更广泛的变革。
  • 相比于专精于某个领域的「专家模型」,布林更看好通用模型,谷歌成功拿下 IMO 银牌模型,这源于谷歌在之前开始将形式证明模型中的某些知识和能力融合到通用语言模型之中的尝试。
  • 目前对于算力的需求源源不断,但很难出现「从 100 兆瓦到 1 吉瓦、10 吉瓦,甚至 100 吉瓦」的需求激增。
  • 在人工智能应用领域,布林认为生物学已经较好地实现了 AI 技术的落地应用,而机器人领域还是看完演示觉得很神奇的阶段,没有达到日常可以使用的水平。
  • 虽然 AI 偶尔会犯大错,但更应及时发布。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。比 AI「犯蠢」更可怕的是,当时谷歌太胆小,都不敢部署 Transformer,论文作者全离职了。
  • 科技巨头在 AI 领域的竞争实际是好事,不过布林还是会密切关注大模型排行榜。


以下是访谈全文:


布林:我本来以为我只是来参加一个播客,没想到现场有这么多观众,恭喜你的事业这么成功,整得我都有点害羞了。


主持人:感谢您抽空和我聊天。当今,AI 正处于改变世界的临界点。1998 年,你和拉里(Larry Page)成立了谷歌。听说最近你亲自上阵,在谷歌研究 AI。大型语言模型和对话式 AI 工具对谷歌搜索来说是一种威胁,这是许多行业分析师和专家争论的话题。所以你现在每天在谷歌坐多长时间的班?都在做什么?



布林:老实说,我几乎每天都去上班,不过今天因为要上你的节目,所以缺席一天。作为一名计算机科学家,我我从未见过像最近几年 AI 领域这样激动人心的进展。AI 的进步实在是太震撼了!


回想 90 年代,我还是研究生时,AI 在课程中几乎无足轻重,充其量不过是教材中的一个脚注。课本里讲的是,前人做了各种各样的试验,但是 AI 真的不起作用,搞 AI 就是「死路一条」。这就是关于 AI 你需要知道的一切。


然后不知怎的,奇迹般地,这些研究神经网络的人,让在 60、70 年代被丢弃的 AI 方法开始取得进展 —— 更多的计算,更多的数据,更聪明的算法..... 过去的十年里发生的事情简直令人惊叹。如今的 AI 工具,几乎每个月都能展现出全新的能力,而且这些能力很快就能翻倍。计算机展现出的能力着实令人惊叹。因此,我决定重返技术前线,因为我不愿错过作为计算机科学家所能体验到的这一切。



主持人:你觉得 AI 是搜索的延伸,还是它将重新定义人们检索信息的方式?


布林:我认为 AI 触及着日常生活的方方面面,搜索是其中之一。AI 的影响力几乎无所不包,例如编程。我现在对 AI 编程有所改观。从头开始编写代码,真的很难,特别是和指挥 AI 编程对比起来,对吧?


主持人:你都用 AI 编写了什么呢?


布林:事实上,我自己也写了一点代码,不过只是为了找点乐子。我有时也让 AI 为我写代码,体验很有趣。举个例子来说,我想知道谷歌的 AI 模型玩数独(Sudoku)玩得怎么样。于是,我让 AI 模型自己写了很多代码,可以自动生成数独谜题,然后再把这些题喂给 AI,拿去评分。AI 完全能够胜任编写这些代码的任务。


但当我和工程师们谈论这件事的时候,来回辩论了几轮,结果我半小时后回来,发现 AI 已经完成了。他们很震撼,很显然,他们并不像我所认为的那样,经常使用 AI 工具来辅助编码。


数独游戏(Sudoku)


主持人:这太好笑了。有的模型擅长解数独题,有的模型可以回答我世界中的事实信息,有的模型专用于设计房子。同时,众多研究者正致力于开发通用的大型语言模型。你认为未来将会朝着哪个路线发展呢?


我也不知道这种说法从何而起,说将会有一个「上帝模型」。这就是为什么投资人都在往 AI 里砸钱,一旦「上帝模型」被研发出来,那你就能「一步登天」了,当你拥有 AGI,你可以统治所有事物。或者有很多基于特定应用的小模型,在智能体中协作。你认为未来的模型开发与应用将会如何演变呢?


布林:如果你回顾 10 到 15 年前,那时,不同的 AI 技术被用于解决完全不同的问题。比如,下棋的 AI 与图像生成技术就非常不同,它们各自有着很大的差异。



主持人:就像最近谷歌发了一个 GNN 模型,它的表现优于所有物理预测模型。我不确定你知不知道,但是确实是谷歌发的。


布林:太棒了,但我不知道(尴尬)。


主持人:这个模型就是一个完全不同的架构。


布林:以历史的眼光来看,AI 确实存在着多种不同的系统。以最近举行的国际数学奥林匹克竞赛(IMO)为例,谷歌的模型获得了银牌,离金牌就差一分(详情可以参考机器之心之前的报道:谷歌 AI 拿下 IMO 奥数银牌,数学推理模型 AlphaProof 面世,强化学习 is so back)。


实际上,我们采用了三种 AI 模型:一种负责定理证明,一种专注于几何问题,还有一种是通用的语言模型。然而,就在几个月前,我们开始尝试从之前的工作中吸取经验,开始将形式证明模型中的某些知识和能力融合到通用语言模型之中。


这项工作还在进行,但我认为趋势将朝着构建一个更加统一的模型方向发展。我不确定它就是所谓的「上帝模型」,但可以肯定的是,我们正在朝着某种共享架构,甚至是共享模型的方向发展。


主持人:如果这就是未来的方向,那么为了训练和完善那个超大模型,势必需要动用庞大的计算资源。


布林:算力不可或缺。我读过一些文章,它们预测算力需求将激增,从 100 兆瓦到 1 吉瓦、10 吉瓦,甚至 100 吉瓦。我对此持保留意见。近年来,算法的创新和优化,已带来比增加硬件算力更显著的性能提升。


主持人:那么,当前对算力的大量投入不合理吗?每个人都在谈论英伟达的收益、利润、市值。它支持了超大规模计算和基础设施的增长,使得构建这些庞大的模型成为可能。这种趋势真的没有道理吗?或许它确实有道理,要不然为什么英伟达能赚这么多?


布林:首先声明,我并非经济学家或市场分析师,我的观点仅基于计算机科学家的视角。对我们来说,因为面对巨大的需求,我们正在尽可能快地构建算力集群。比如,谷歌云的客户只想要大量的 PPU、GPU,应有尽有。我们不得不拒绝客户,因为我们自己卡不够用,我们内部也依赖这些资源来训练和部署我们自己的模型。因此,我认为各大公司目前都在积极扩充算力,这都很合理。我只是觉得,很难直接从现状做出未来算力需求会从「100 兆瓦增长到 1 吉瓦、10 吉瓦,甚至 100 吉瓦」这种推断。


主持人:但企业需求就摆在那里。


布林:我明白,客户们有着广泛的需求,他们希望在各种 AI 模型上执行推理任务,并将这些模型应用于层出不穷的新场景中。他们的这些需求暂时是没有上限的。


主持人:在 AI 的应用领域,无论是机器人学还是生物学,您认为哪些方面取得了最显著的成就?有没有用例让你觉得「哇,这太有用了」?又有哪些领域挑战较大,应用落地可能比预期更久?


布林:我的答案是生物学。Alphafold 已经推出一段时间了。它已经推出一段时间,而且我与生物学家交流时发现,几乎人人都在使用它。Alphafold 的最新版本,Alphafold 3,代表了一种新型的 AI 技术。正如我之前提到的,我相信未来的趋势是模型的统一化。



对于机器人,我处于一个「wow 阶段」,比如,「哇,机器人竟然可以做家务了!」但你要知道,它背后可能只是一个微调了一下的通用语言模型,虽然它很神奇,但大多数情况下,它们还没有达到日常可以使用的水平。


主持人:你看到机器人的前景了吗?


布林:可能吧...... 但是我没有看到具体的......


主持人:但你们谷歌不是也有机器人业务吗?虽然后来被拆出去了,还被卖了。


布林:谷歌曾在做机器人的生意。


主持人:可能只是时机不对。


布林:坦白说,那可能是我们过于超前了。波士顿动力公司有那么多明星产品,但我甚至不记得谷歌做出过什么。无论如何,我们有过五六个令人尴尬的产品,但它们很酷,能给人留下深刻的印象。只是看到现在的通用语言模型有多能干,多模态技术能让机器人理解场景,想想当年还是有点傻。当时还没有这些 AI 技术,我们就像是在跑步机上原地踏步,难以向前迈进。



谷歌开发机器人的计划曾有一手好牌:「Android 之父」安迪・鲁宾(Andy Rubin),大名鼎鼎的机器人制造商波士顿动力,名动一时的人形机器人 Atlas…… 不过,就在短短五年时间里,计划解散重组,再解散再重组。高管相继离职,销售计划叫停,几大王牌公司各自卖身...


主持人:你在核心技术的研发上投入了大量时间。在产品方面,你是否也投入了相当的精力?在一个 AI 无处不在的未来世界中,人机交互的方式将如何演进,我们的日常生活又将发生怎样的变化呢?


布林:这好像在茶水间和同事聊天的话题。


主持人:介意和我们分享一下吗?


布林:不介意,我在回想一些不会令人尴尬的事情,挣扎 ing。


主持人:讲「你有一个朋友」的故事也行。


布林:未来会怎么样,真的很难讲。AI 的技术是实现应用的基础。比如有人放出了一个炸裂的 demo,特别惊艳,但从演示到真正在生产中实现,这需要时间。我不知道你是否尝试过 Astra 模型,你可以与它打实时视频,它能说出你身边环境中发生的事情。



主持人:你可以用对吧。



布林:我肯定会拿到访问权限的。有时候,我可能是最后一批获得权限的人。目前,我们已经来到了一个这样的阶段,体验了 AI 之后,人们可能会惊叹:「哦,我的天,这真是太神奇了。」然后你会思考,「好吧,它 90% 的情况下都能正确运行。」但接着你可能会质疑,「如果还有 10% 的情况下会出现错误或反应迟缓,这样的技术真的够好吗?」于是,我们必须努力去完善这些细节,确保它既迅速又可靠,等等。当这一切真正实现时,那确实是一种令人惊叹的成就。



主持人:我听说了一个故事,应该在上台之前和你通一下气的。在一次发布会之前,一群工程师向你展示了 AI 可以用来编写代码,他们说:「我们尚未在 Gemini 中部署它,因为我们想确保它不会出错。」谷歌有一些这样「犹豫不决」的企业文化。当时你说:「不,既然它能写代码,那就应该推出。」很多人都给我讲过这个故事。因为他们认为,「从你这位创始人口中听到这样的言论极为重要,这表明保守主义还没有完全占领谷歌,我们期待看到谷歌继续引领创新。」这样的描述准确吗?你真的这样说过吗?



布林:我不记得具体细节了。老实说,这确实很像我会做的事。



主持人:对我来说,这就会成为一个问题,因为谷歌的规模已经如此之大,一旦出现失误,就会损失惨重。



布林:那我还是有害怕的事的。现在语言模型的起点,要追溯到 6 年前还是 8 年前哪篇 Transformer 论文。但是这些论文作者全部都从谷歌离职了。恭喜他们!当时我们太胆小,都不敢部署 Transformer。



布林:而且无论 AI 的能力有多强大,它们有时仍会犯错误,仍会说出一些令人尴尬的话。但同时,AI 已经可以帮助我们从未做过的事情。比如我和我的孩子们一起编程,处理一些极其复杂的问题。


仅仅通过向 AI 咨询,他们就能直接上手编程,学会那些通常需要花费一个月时间去学习的各种复杂 API 和工具。这种能力近乎神奇。我们需要准备好面对一些错误,并勇于承担风险。我相信我们在这方面的应对已经有所改进。当然,你们可能已经见过很多 AI「犯蠢」的时刻了,但......



主持人:这是可以接受的。毕竟,你早已财富自由,坐拥巨额股票。我的意思是,你愿意接受这些尴尬,因为在这个阶段这么做非常重要。


布林:我这么做不是因为我的股票,好吗?但是想想我真能接受这些错误吗?这就是我们呈现给世界的神奇之物吗?我觉得我们所需要传达的是,「看,这个东西很神奇」。AI 偶尔会犯大错,但我认为我们应该及时发布,让人们去实验,看看能找到什么新应用。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。



主持人:您是否认为人工智能对世界的影响力如此深远,创造的价值如此巨大,以至于这不再是谷歌、Meta 和亚马逊之间的一场简单竞争?大家都把它看作是一场商战,但是有没有这种可能,AI 做出的蛋糕如此大,你们正在探索的领域如此广泛,远不止于谁打造了得分最高的模型,谁的 LLM 性能最出色?你如何看待如何看待 AI 带来的广阔前景,谷歌在其中将扮演怎样的角色?



布林:我认为竞争在某种程度上是非常有帮助的,因为所有科技大厂都在争夺,顺便说一下,几周前在某个排行榜上,谷歌是第一名,并且我上次检查时,我们仍然击败了顶级模型。只是......



主持人:有几个指标不好。所以你确实是在乎模型评分的!


布林:我没说我不在乎啊。ChatGPT 问世时,谷歌确实落后了一大截,现在我们已经取得了长足的进步。我对谷歌现在取得的所有进步非常满意。因此,我们肯定会密切关注模型排行榜。我认为有这么多 AI 公司存在是好事,无论是 OpenAI、Anthropic,还有 Mistral,这代表着 AI 领域正在迅速扩张,充满活力。


对于你的问题,我认为 AI 对人类来说有巨大的价值。如果回想一下我的大学时代,那时还没有我们今天所熟知的互联网,想要获取基本信息、与人沟通都需要付出巨大的努力。在手机普及之前,我们已经在全球范围内获得了巨大的能力提升,而如今的 AI 技术,无疑是另一项重大的能力飞跃。现在,几乎每个人都能以某种方式接触到 AI。我认为这是非常令人兴奋的,真是太棒了。


文章来自于微信公众号“机器之心”



关键词: Transformer , AI , Gemini , Gemini Live
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner