图片来源:All-In Podcast
Z Highlights
谷歌是否在追求“上帝模型”?
David Friedberg: 1998年,你和拉里一起创立了谷歌。最近有报道称,你在谷歌花了更多时间研究人工智能。我想,也有很多行业分析师和专家认为,大型语言模型和对话式人工智能工具可能对谷歌搜索构成潜在威胁。现在有一个关于谷歌未来走向以及谷歌在人工智能领域地位的大讨论,我知道你在这方面投入了很多时间,所以感谢你来谈论这个话题。你在谷歌花了多少时间?你在研究什么?
Sergey Brin: 作为一名计算机科学家,过去几年AI的进展如此令人振奋,这是我从未见过的。当我在90年代上研究生时,AI在课程中几乎只是个脚注。就像你必须做一个关于AI的小测试,我们尝试了各种不同的方法,但都不太奏效。然而,不知何故,奇迹般地,那些研究神经网络的人——这是60年代和70年代被抛弃的AI方法之一——开始取得进展。随着计算能力的增加,数据的增多,以及一些聪明的算法,过去十年左右发生的事情真是令人惊叹。作为一名计算机科学家,我对每个月涌现出的新功能感到无比惊讶。计算机竟然能够实现这些功能,这让我和其他人一样感到震撼。因此,我重新投入到技术工作中,因为我不想错过这一切。
David Friedberg: 是关于搜索的扩展还是对人们获取信息方式的重新定义?
Sergey Brin: AI涉及到了日常生活的很多不同方面。当然,搜索是其中之一,但它基本上涵盖了所有领域,比如编程本身。我的看法和以前已经大不相同了。现在感觉从头开始写代码真的很难,相比之下,直接让AI来做就简单多了。我自己也写过一些代码,只是为了好玩,有时候我也让AI帮我写代码,这还挺有趣的。
举个例子,我想看看我们的AI模型在数独方面表现如何。所以我让AI模型写了一堆代码,可以自动生成数独谜题,然后把它们输入给AI,再进行评分等等。AI可以直接写出这些代码,我和工程师们讨论过这个问题,我们来回争论了一番,但当我半小时后回来时,代码已经完成了。他们有点惊讶,因为他们并没有像我认为的那样多地使用AI工具来编写自己的代码。
David Friedberg: 这是一个有趣的例子,因为可能有一个模型非常擅长解数独,另一个模型可以回答我关于世界事实的问题,还有一个AI模型可以设计房屋。很多人正在努力开发这些庞大的通用语言模型。这是世界的发展方向吗?有人最近提到会有一个“上帝模型”,这就是为什么大家都在大量投资——如果你能构建这个“上帝模型”,你就成功了;你得到了AGI或者其他你想用的术语,就像是一个模型统治一切。还是说AI的现实是有很多较小的模型在做特定应用的事情,可能像在一个agent系统中协同工作?模型开发的演变是什么,模型最终是如何被用来实现所有这些酷炫的事情的?
Sergey Brin: 如果你回顾十到十五年前,不同的AI技术被用来解决完全不同的问题,比如棋类AI就与图像生成技术完全不同。
David Friedberg: 就像最近谷歌的图神经网络超过了所有的物理预测模型。我不知道你是否知道这个,但你们发表了这个挺厉害的东西。不过它完全是不同的架构,是一个不同的系统,训练方式也不一样,最终在那个特定领域取得了成就。
Sergey Brin: 所以从历史上看,不同的系统一直存在,甚至最近也是这样。比如在我们参与的国际数学奥林匹克竞赛中,我们作为AI获得了银牌,实际上只差一分就能拿金牌。我们实际上用了三种不同的AI模型,其中有一个是非常正式的定理证明模型,它的表现基本是最好的;还有一个是专门针对几何问题的,那是种专门的AI;然后是一个通用的语言模型。不过,自那之后,我们试图把从中学到的东西注入到我们的通用语言模型中,那只是几个月前的事情。这仍在进行中,但我确实认为趋势是朝着一个更统一的模型发展。我不知道会不会叫它“上帝模型”,但一定会有某种共享架构,最终甚至是共享模型。
David Friedberg: 如果是这样的话,你需要大量的计算能力来训练和开发那个大型模型。
Sergey Brin: 这确实需要大量的计算能力。我读过一些文章,里面推测需要100兆瓦、一千兆瓦、十千兆瓦甚至一百千兆瓦的计算能力。我不太相信这种推测,部分原因是,过去几年的算法改进速度可能甚至超过了这些模型中计算能力的增加。
对大规模AI芯片建设的看法
David Friedberg: 这种扩建是否不理性?大家都在谈论英伟达的收入、利润和市值,这些都在支撑所谓的超大规模公司,以及构建超大型模型所需的基础设施的增长。用今天的方法来构建这些模型,这种行为是不理性的吗?还是说它是理性的,因为如果成功了,规模会如此之大,以至于这些问题都显得无关紧要。
Sergey Brin: 首先,我并不是经济学家或市场观察者,无法像你们那样细致地关注公司动态,所以我想先说明一下我的局限性。我知道我们正在尽可能快地扩展计算能力,因为需求非常大。比如,我们的云客户需要大量的TPU和GPU等资源,由于计算能力不足,我们不得不拒绝一些客户。同时,我们也在内部使用这些资源来训练和服务我们的模型。因此,我认为公司目前快速扩展计算能力是有充分理由的。只是我不确定是否应该根据当前的训练趋势,盲目地推断出未来会有三个数量级的增长。
David Friedberg: 但企业需求确实存在。
Sergey Brin: 他们想做很多其他事情,比如在所有这些AI模型上运行推理,将它们应用到各种新应用中,在这方面目前似乎没有限制。
David Friedberg: 在哪些领域你见过模型应用取得了最大的成功或令人惊讶的成就?无论是在机器人还是生物学领域,有哪些让你感到“哇,这真的有效”的地方?又有哪些方面会更具挑战性,并且可能比一些人预期的需要更长时间才能实现?
Sergey Brin: 在生物学领域,你知道我们已经有AlphaFold一段时间了,我不是生物学家,但当我跟生物学家交流时,发现几乎所有人都在使用它和它最近的变种。这算是一种不同类型的人工智能,但我觉得所有这些技术最终会趋同。至于机器人技术,我看到的更多是处于“哇”阶段,比如用一个通用语言模型或者稍微做些微调就能让机器人做到这些事情,真的很惊人。不过,大多数情况下,它还没有达到那种让它在日常使用中足够稳健的水平。
David Friedberg: 但你能看到实现它的方向。
Sergey Brin: 好像我没有看到有什么特别的,比如说谷歌处理机器人业务然后把它卖掉了。我们曾经有过五六家机器人公司,只是时机不对。不幸的是,我觉得那时候的确稍微早了一点。比如波士顿动力,以前有个叫什么的,我都不太记得我们拥有的所有公司。总之,我们有过五六家,说实话有点尴尬。但它们都很酷,非常令人印象深刻。
现在回头看,当时完成了那么多工作,而如今这些通用语言模型变得如此强大,还包括了视觉和图像处理,它们是多模态的,能够理解场景等等,而我们当时没有这些技术,就感觉像是在跑步机上,总是无法到达终点,因为缺乏现代的人工智能技术。
人工智能与人类互动的未来
David Friedberg: 你花了很多时间在核心技术上,那你是否也投入很多时间在产品愿景上,思考未来的发展方向,以及在一个AI无处不在的世界中,人机交互模式将会如何演变?我们的生活会变成什么样子?
Sergey Brin: 说真的,很难预测未来五年会怎样,因为AI的基本技术能力决定了应用的可能性。有时候,某人会快速做出一个小演示,出乎意料地震撼。当然,从演示到真正投入生产还需要时间。
不知你有没有用过Astra模型,它可以实时视频和音频互动,你可以和AI聊聊你的环境。一旦我有权限,就会给你用。我有时是最后一个接触到这些东西的人。不过,当看到这些功能时,真的有一瞬间觉得“哇”,惊叹于它的表现。然后你会想,好吧,虽然它有90%的时间能正确运行,但如果有10%的时间会出错或者反应慢,那是否真的值得呢?然后你需要不断努力,让一切更完美、更灵敏、更稳健,最终你会得到一件相当惊人的作品。
David Friedberg: 我听说过一个故事,说你去现场时,有一群工程师向你展示了他们如何用AI写代码。当时你说,虽然我们还没在Gemini中发布,因为想确保它不会出错,但如果AI能写代码,那就发布。谷歌在文化上对这种技术有些犹豫,而你的态度让很多人印象深刻,因为你作为创始人明确表示,谷歌不能总是保守,我们需要不断突破。这是真的吗?这是不是你花时间关注的事情?
Sergey Brin: 我觉得大家对语言模型有些畏惧。最初,我们通过Transformer论文发明了这些模型,大概是六到八年前吧。顺便提一下,现在那个团队又回到了谷歌,真是太好了。当时我们对部署这些模型过于谨慎,主要是因为它们可能会出错,或者说出一些令人尴尬的话。有时候,它们的表现甚至让人觉得很愚蠢,即使是现在最先进的模型也会犯一些人类绝不会犯的低级错误。
然而,它们也非常强大,能帮助你完成许多以前无法做到的事情。我和孩子一起编写过非常复杂的程序,只是因为我们通过复杂的API向AI提问——这些事情原本需要几个月的学习。所以我觉得这种能力简直是魔法。我们需要愿意接受一些尴尬和风险,我认为我们在这方面已经有所改善。虽然你们可能会看到更多的尴尬情况,但你们对此已经习惯了。
我觉得这就像是我们在为世界带来一些神奇的东西。只要我们能正确地传达信息,比如说这东西很棒,但偶尔也会出错,我认为我们就应该把它推出去,让人们去尝试,看看他们能找到什么新的使用方法。我不认为这种技术应该被藏着掖着,直到它变得完美。
David Friedberg: AI有那么多地方可以影响世界,并创造大量价值,所以这不仅仅是谷歌、Meta与亚马逊之间的竞争吗?人们常常把这些事看作是一场比赛,但其实有那么多价值可以去创造,你们在很多不同的机会上努力,而不是只追求谁能打造出评分最高的模型。你怎么看待这个世界,以及谷歌在其中的位置?
Sergey Brin: 竞争确实非常有益,因为各家公司都在努力争取。最近,我们在某个排行榜上拿到了第一名,直到上次检查,我们仍然领先于顶级模型,虽然有些表现不尽如人意,但我们确实很在意。从ChatGPT推出时我们还比较落后,到现在取得了显著进展,我对此感到非常满意。
我认为有这么多AI公司存在是件好事,无论是OpenAI、Anthropic还是其他公司,这都是一个快速发展的庞大领域。我觉得这对人类有巨大的价值。回想一下,当我在上大学时,还没有像今天这样的互联网或网页,获取基本信息和交流都需要很大努力。在没有手机的时代,我们在全球范围内获得了如此多的能力,而新的AI则是另一种巨大的能力。如今,几乎每个人都能以某种形式获得它,我觉得这非常令人振奋,真是太棒了。
文章来源于“Z Potentials”,作者“All-In Podcast”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner