谷歌在2月之后突然切换到了996模式,不到一个月的时间抛出了5个模型。
而DeepMind CEO Hassabis本人也是四处为自家的产品站台,曝出了很多幕后的开发内幕。
在他看来,虽然还需要技术突破,但是现在人类通往AGI之路已经出现。
而DeepMind和谷歌Brain的合并,标志着AI技术发展已经进入了新的时代。
问:DeepMind一直站在技术的前沿。比如像AlphaZero这样系统,内部的智能体能够经过一系列思考,达成最终目标。这是否意味着大型语言模型(LLM)也能够加入这种研究的行列呢?
Hassabis:我个人认为,这是一个非常有潜力的方向。我们需要继续完善这些大型模型,让它们成为更精确的世界预测器,从而构建出更可靠的世界模型。这是必要的,但可能还不足以构成一个通用人工智能(AGI)系统的全部。
在此基础上,我们正在开发类似AlphaZero的规划机制,通过世界模型来制定实现具体世界目标的计划。
这包括将不同的思维或推理链条串联起来,或者利用树搜索来探索广阔的可能性空间。
这些都是目前我们的大型模型所缺失的环节。
问:从纯粹的强化学习(RL)方法出发,是否有可能直接迈向 AGI 呢?
看来,大型语言模型会构成基础先验知识,然后在此基础上进行进一步研究。
理论上,完全采用开发AlphaZero的方式是有可能的。
DeepMind和RL社区的一些人正在致力于这一方向,他们从零开始,不依赖任何先验知识或数据,完全构建新的知识体系。
我认为,利用现有的世界知识——例如网络上的信息和我们已经收集的数据——将是实现AGI的最快途径。
我们现在已经有了能吸收这些信息的可扩展算法——Transformers,我们完全可以利用这些已有的模型作为先验知识来进行预测和学习。
因此,我认为,最终的AGI系统一定将包括现在的大模型作为解决方案的一部分。
但光有大模型还不足够,我们还需要在其上加入更多的规划和搜索的能力。
问:面对这些方法所需的巨大计算资源,我们怎样才能突破呢?
即使是AlphaGo这样的系统,由于需要在决策树的每个节点上进行计算,也是相当昂贵的。
我们致力于开发样本高效的方法和重复利用现有数据的策略,例如经验回放(experience replay),以及探索更高效的方法。
实际上,如果世界模型足够好,你的搜索就可以更高效。
以Alpha Zero为例,它在围棋和象棋等游戏中的表现超过了世界冠军水平,但其搜索的范围远小于传统的暴力搜索方法。
这表明,改进模型可以使搜索更高效,从而达到更远的目标。
但在定义奖励函数和目标时,如何确保系统朝着正确的方向发展,将是我们面临的挑战之一。
问:你能谈谈为什么Google和DeepMind同时研究这么多不同的模型吗?
因为我们一直在进行基础研究,我们有大量的基础研究工作,涵盖各种不同的创新和方向。
这意味着,我们同时在构建主要的模型轨道——核心Gemini模型,同时也有许多更具探索性的项目正在进行。
当这些探索项目取得一些成果时,我们会将其融入主分支,进入下一版本的 Gemini,这就是为什么你会看到1.5紧随1.0之后发布,因为我们已经在研究下一个版本了,因为我们有多个团队在不同的时间尺度上工作,相互之间进行循环,这就是我们能够持续进步的方式。
我希望这将成为我们的新常态,以这种高速度发布产品,当然,同时还要非常负责任,牢记发布安全的模型是我们的第一要务。
问:我想问的是你们最近的一次重大发布,即Gemini 1.5 Pro,你们的新 Gemini Pro 1.5模型可以处理高达一百万个token。你能解释一下这意味着什么以及为什么上下文窗口是一个很重要的技术指标吗?
是的,这非常重要。长上下文可以被视为模型的工作记忆,即它一次可以记住并处理多少数据。
你拥有的上下文越长,它的准确性也很重要,从长上下文中回忆事物的精确度也同样重要,你就可以考虑到更多的数据和上下文。
因此,一百万意味着你可以处理巨大的书籍、完整的电影、大量的音频内容,比如完整的代码库。
如果你有一个更短的上下文窗口,比如只有十万这个级别,那么你只能处理其中的片段,模型就无法对你感兴趣的整个语料库进行推理或检索。
因此,这实际上为所有类型的新用例提供了可能性,这些是小上下文无法完成的。
问:我从人工智能研究人员那里听说,这些大上下文窗口的问题是它们非常消耗计算资源。比如,如果你上传了一整部电影或一本生物学教科书,并询问关于它的问题,就需要更多的处理能力来处理所有这些并做出回应。如果很多人都这样做,成本会很快增加。Google DeepMind是否提出了一些巧妙的创新来使这些巨大的上下文窗口更高效,还是Google只是承担了所有这些额外计算的成本?
是的,这是一个全新的创新,因为如果没有创新,你无法拥有这么长的上下文。
但这仍然需要花很高昂的计算成本,所以我们正在努力优化。
如果你用满了整个上下文窗口的话。上传数据的初始处理可能需要几分钟。
但如果你考虑到这就像是在一两分钟内观看整部电影或阅读整部《战争与和平》,那么这还不算太坏,然后你就能回答任何关于它的问题了。
然后我们想确保的是,一旦你上传并处理了文档、视频或音频,那么随后的问题和回答应该更快。
这就是我们目前正在努力的方向,我们非常有信心能将其缩短到几秒钟的时间内。
问:你说你们已经测试了高达一千万token的系统了,效果如何?
在我们的测试中效果非常好。因为计算成本还比较高,目前还不实际提供服务。
但在精确度和回忆方面,它的表现非常出色。
问:我想问你关于Gemini的问题,Gemini能做什么特别的事情,之前的Google语言模型或其他模型做不到的?
嗯,我认为Gemini,尤其是1.5版本的激动人心之处在于其天生的多模态特性,我们从头开始构建它,使其能够处理任何类型的输入:文本、图像、代码、视频。
如果你结合长上下文,你就会看到它的潜力。比如,你可以想象你在听一整场讲座,或者有一个重要的概念你想了解,你想快进到那里。
所以现在我们可以将整个代码库放入上下文窗口中,这对于新程序员的入门非常有用。假设你是星期一开始上班的新工程师,通常你需要去查阅数以十万计的代码行,你如何访问某个函数?
你需要去询问代码库的专家。但现在实际上你可以使用Gemini作为编码助手,以这种有趣的方式。它会返回一些摘要,告诉你代码的重要部分在哪里,你就可以开始工作了。
我认为拥有这种能力非常有帮助,使你的日常工作流程更加高效。
我非常期待看到Gemini在像slack这样的东西中被整合进去后的表现,以及你的一般工作流程。未来的工作流程是什么样的?我认为我们才刚刚开始体会到变化。
问:我现在想转向 Gemma,你们刚刚发布的一系列轻量级开源模型。今天,是否通过开源发布基础模型,或者将它们保持封闭,似乎是最具争议的话题之一。到目前为止,Google一直将其基础模型保持为封闭源。为什么现在选择开源?你如何看待这样一种批评,即通过开源使基础模型可用,增加了它们被恶意行为者使用的风险和可能性?
是的,我实际上公开讨论了这个问题很多次。
其中一个主要担忧是,通常来说,开源和开放研究显然是有益的。但这里有一个特定的问题,那就是与AGI和AI技术相关的问题,因为它们是通用的。
一旦你发布了它们,恶意行为者就可能将它们用于有害的目的。
当然,一旦你开源了某样东西,你就没有真正的办法再收回来了,不像API访问之类的,如果发现下游有之前没人考虑到的有害用例,你可以直接切断访问。
我认为这意味着对于安全性、鲁棒性和负责任性的门槛甚至更高。随着我们接近 AGI,它们将拥有更强大的能力,所以我们必须更加小心,考虑它们可能被恶意行为者用于什么。
我还没有从那些支持开源的人那里听到一个好的论点,比如开源的极端主义者,他们中有很多是我在学术界尊敬的同事,他们如何回答这个问题,——符合防范开源模型对于会让更多的恶意行为者的访问模型的问题?
我们需要更多地考虑这些问题,因为这些系统变得越来越强大。
问:那么,为什么Gemma没有让你担忧这个问题呢?
是的,当然,因为你会注意到,Gemma只提供轻量级版本,所以它们相对较小。
实际上,较小的尺寸对开发者更有用,因为通常个人开发者、学者或小团队希望在他们的笔记本电脑上快速工作,所以它们为此进行了优化。
因为它们不是前沿模型,它们是小型模型,我们觉得放心,因为这些模型的能力经过了严格的测试,我们非常清楚它们的能力,这种尺寸的模型没有大风险。
问:去年,当Google Brain和DeepMind合并时,我在 AI 行业中认识的一些人感到担忧。他们担心,Google历来给 DeepMind相当大的自由度,让它工作在它认为重要的各种研究项目上。
而随着合并,DeepMind的可能会不得不被转向到对Google短期内有益的事情,而不是这些较长期的基础研究项目。自从合并以来,已经一年了,对 Google 的短期利益和可能的长期 AI 进步之间的这种紧张关系是否改变了你可以工作的内容?
是的,你所提到的这第一年一切都非常好。一个原因是,我们认为现在是合适的时机,而且我从研究者的角度认为是时候了。
也许让我们回溯五年或六年,当我们做像AlphaGo这样的事情时,在AI领域,我们一直在探索性地研究如何达到 AGI,需要什么突破,应该押注什么,以及在那种情况下,你想做一系列广泛的事情,所以我认为那是一个非常探索性的阶段。
我认为在过去的两三年里,AGI的主要组成部分将是什么已经变得清晰,正如我之前提到的,虽然我们仍然需要新的创新。
我认为你刚刚看到了Gemini1.5的长上下文,我认为还有很多类似的新创新将是必需的,所以基础研究仍然像以往一样重要。
但现在还需要在工程方向努力,即扩大和利用已知技术,并将其推向极限,需要在规模上进行非常有创造性的工程,从原型机级别的硬件到数据中心规模,以及涉及到的效率问题。
还有一个原因是,如果在五六年前制造一些AI驱动的产品,将不得不构建与AGI研究轨道完全不同的AI。
只能为特定产品做特殊场景下的任务,属于一种定制的AI,「手工制作的AI」。
但今天情况不一样了,为产品做AI,现在最好的方式是使用通用AI技术和系统,因为它们已经达到了足够的复杂性和能力水平。
所以实际上这是一个融合点,所以大家现在可以看到,研究轨道和产品轨道已经融合在一起了。
比如我们现在要做一个AI语音助手,与之相对的是一个真正理解语言的聊天机器人,它们现在是一体的,所以现在不需要考虑那种二分法或者协调紧张的关系了。
第二点个原因是,研究与现实应用之间有紧密的反馈循环实际上对研究非常有利。
因为产品能让你真正了解你的模型表现如何的方式,你可以有学术指标,但真正的测试是当数百万用户使用你的产品时,他们是否觉得它有用,是否觉得它有帮助,是否对世界有益。
你显然会得到大量的反馈,然后这将导致底层模型的非常快速改进,所以我认为我们现在正处于这个非常非常令人兴奋的阶段。
参考资料:
https://www.youtube.com/watch?v=eqXfhejDeqA
文章来自于微信公众号 “新智元”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md