新晋诺贝尔化学奖得主、DeepMind创始人哈萨比斯的最新访谈来了~
聊了DeepMind的初衷以及正在做的事,聊了AGI,还聊了AI的未来。
对于AGI,此前奥特曼曾表示可能5年内到来,马斯克也曾预测很快将实现,而哈萨比斯则认为没那么快。
他认为要达到AGI,还需要约10年的时间,而且还需要实现两三个重大创新才能AGI。
而且将人工智能仅仅视为另一种技术是错误的,这将比互联网等带来的影响要大得多,AI将是“划时代的定义性”技术。
……
哈萨比斯这次还明确表明“DeepMind的目标从开始到今天仍是达到AGI”、“DeepMind仍然是一家以研究为主导的机构”。
不过有意思的是,在被问到他个人是如何保持持续研究的?哈萨比斯回答道:
之前通常会在午夜到凌晨3点间阅读思考,但现在很多原本用于思考的时间现在都用来处理电话会议了。所以,需要考虑如何重新规划时间。
总之,网友们整个访谈看下来,那叫一个津津有味:
还有网友认真记笔记:
关键点:
AGI仍然是10年后的事。
当前的AI炒作阶段是关于让Agent执行在线/离线任务的故事.
这一切将如何发展,你将拥有一个主要的通用智能系统,它将调用多个擅长特定任务的AI Agent进行协作处理任务.
个别网友的关注点那可就不一样了,不在发言上,而在:
话不多说,量子位在不改变原意的基础上对这次访谈的内容进行了翻译整理,各位看官们请享用~
Q:你2010年左右开始创业,那时已有一些早期想法,但之前AI经历了几十年寒冬,人工智能似乎并未取得显著进展。为什么那时你会选择创立DeepMind?
哈萨比斯:
实际上,我从事AI研究已经超过30年了。
首先是在游戏领域,制作游戏AI和模拟游戏。然后我学习了计算机科学和神经科学。我一直在观察AI领域的发展。
在90年代,就是你所说的AI寒冬期间,主要是逻辑系统,被称为专家系统。许多人可能还记得深蓝击败国际象棋大师加里·卡斯帕罗夫,这些都是预先编程的系统,程序员和系统设计师解决问题并将其规则化。
然而,计算机或AI系统实际上并不智能,它只是机械地执行这些启发式规则,问题在于这会导致系统脆弱。它们无法学习新事物,当然也无法发现新事物,因为它们的能力显然受限于设计者或程序员已经知道的内容。
对我来说,在90年代,无论是在剑桥还是麻省理工学院,我所学习的地方,普遍都认为逻辑系统是正确的方向。
我认为这就是人工智能寒冬的原因之一,因为它们本质上是脆弱且有限的。
所以到了2010年,随着深度学习在学术界诞生,我们看到了新的可能。我们还发现大脑中的多巴胺系统也使用了强化学习,动物包括人类都是通过强化学习来学习。
因此,我明白我们需要构建的是一个能够自我学习并具有通用性的系统,这就是DeepMind的起源。
我们也看到了像GPU这样的硬件正在加速发展。我在GPU最初用于计算机图形和电脑游戏时就开始使用它们,但它们非常通用。
事实证明,世界上所有东西都可以归结为矩阵乘法。
所以,我们很早就感觉到,将这些初生的想法和成分集合起来需要一种类似执行阿波罗计划的努力,能够迅速推动技术进步,最终也确实实现了这一点。
Q:这是你当初在2010年设想的未来吗?你是否曾想象过,15年后,会在这里向众多听众讲述AI的重要性,并且已经解决了蛋白质折叠问题?
哈萨比斯:
实际上,一切大致按照我们的计划进行。当然,途中有些小波折和意外。但当我们在2010年开始时,我们认为大约需要20年的时间才能实现AGI。
我认为我们可能还有大约10年就能达到这个目标。
所以,大致上是按照这个时间线进行的。而且,蛋白质折叠以及在通向AGI的过程中使用AI系统进行科学研究一直是我的热情所在。
蛋白质折叠一直是我希望解决的科学问题列表中的首位,如果我们能找到突破,这将是革命性的。
Q:我们来谈谈AGI。有趣的是,自ChatGPT出现以来,大家对AI的讨论非常激烈,这与你所做的AI完全不同。到目前为止,作为一个观察者来看,你的AI都是非常具体的,看起来有点奇怪,你开始做一些看似无意义的事情,你在电脑游戏上变得非常擅长……
哈萨比斯:
我不会说它们毫无意义,但更多的是为了娱乐,也许你可以这么说。
我们从游戏开始,部分原因是因为我在制作游戏和在象棋等方面的背景。
自图灵时代以来,游戏一直与AI发展密切相关,像香农这样的伟人,他们从象棋程序开始,这几乎是每个AI先驱所做的。
象棋被认为是AI系统的训练场。
你的算法想法能否快速取得进展?通过它很容易就能benchmark你的位置,你知道,如果你打败了世界冠军或最好的计算机,那你就做得很好。
但重点是,这些总是达到目的的手段,而不是目的本身。
所以,想法总是要发展,不仅仅是成为围棋或象棋的世界冠军,而是以一种通用的方式进行,这种方式可以转移到其他领域,包括科学和商业应用。
这就是我们使用深度强化学习所做的,也是我们与AlphaGo所做的。所有这些都是非常通用的系统和技术,我们今天仍在使用。
当涉及到像AlphaFold解决蛋白质折叠之类的问题时,你真正感兴趣的是解决方案本身。
你知道,如果你有治疗癌症的方法,你不在乎它是如何完成的,你只想要治疗癌症的方法。所以你真的会想尽一切办法去尝试。
所以最开始是以所拥有的所有通用技术作为基线,然后观察领域本身,如果这个领域对社会或商业来说足够有价值,那么你在上面添加定制的东西,这就是如何得到像AlphaFold这样的突破性程序。
但最终,DeepMind的目标从开始到今天仍是达到AGI,这意味着一个通用系统,能够开箱即用地完成人类能做的任何认知任务。
完全通用的图灵机,正如艾伦·图灵在50年代指定的,能够计算任何可计算的东西。这是AI领域的最初目标,也是DeepMind的目标。
当然,你最近看到的是像这些语言模型这样的东西。显然,ChatGPT触及了每个人,实际上所有顶尖实验室,包括谷歌和DeepMind都在研究语言模型。
我们有自己的内部模型,叫做Chinchilla,谷歌也有他们的。当然,这一切都基于谷歌研究院发明的Transformer架构,所有当前的模型都基于此。
这是一个令人兴奋的时期,因为语言显然是一种通用能力。
所以这就是每个人都对聊天机器人感到非常兴奋的原因,这种技术能够扩展到如此广的程度,真是既有趣又出人意料。
我认为我们比以往任何时候都更接近于构建这种通用系统,但目前仍然需要专门的系统来在特定领域达到最高水平。
Q:LLM是否更接近于AGI?我的感觉是,它更像是与人类互动。但实际上是这样吗?
哈萨比斯:
我认为现在甚至连“大语言模型(LLMs)”这个词都不够准确了,因为它们不仅仅是大语言模型,还是多模态的。
例如,我们的模型Gemini从一开始就是多模态的。因此,它可以处理任何输入,比如视觉、音频、视频、代码以及文本。
我认为这将是AGI系统的一个关键组成部分,但可能本身还不够。我认为从现在到我们实现AGI还需要两到三个重大创新。
这也是为什么我提出10年的时间框架,一些同行、竞争对手的时间线比这更短,但我认为10年大致合适。
Q:现在你们正在进行一些非常实用的项目,比如我们提到的蛋白质折叠和天气预报。你们最近在国际数学奥林匹克竞赛中获得了银牌,如果努力的话,或许还能获得金牌。
你们还在开展其它多种活动,但我想知道,你们是否也在幕后考虑如何继续推动AGI的发展?你们是否有团队在致力于这一目标?
哈萨比斯:
我们确实是一个大型组织,正如你所说,我们最初是以贝尔实验室的模式建立的,这是世界上最优秀的工业实验室之一,能够发明未来并进行长期规划。
我们已经展示了这种模式的效力,特别是在为现今你所见的技术奠定基础方面。
所以我认为任何深科技初创公司,都需要时间来发展和成熟其技术。我们现在处于一个非常激动人心的时刻,在过去的两三年中,这些技术已经相当成熟,准备应用于各种事物。
这不仅包括科学、数学和医学等领域的进步,也包括生产力和商业应用,例如聊天机器人或是重新设计的工作流程和电子邮件系统。
这些都还处于初期阶段,我们也在所有这些方面进行工作。
我认为谷歌拥有超十五亿用户的服务和产品,AI是所有这些事物的核心,新功能不断加入,这些都源自我们在DeepMind开发的技术。
从某种意义上说这很棒,因为针对产品的技术需求与我们朝向AGI所做的研究大约90%相似,这些领域已经大幅融合。
如果是五年或十年前,如果你想在产品中构建AI,你必须回到逻辑网络、专家系统,因为通用系统和学习系统还不够好。就像Alexa时代的助手,仍然基于那种旧技术,它们脆弱且不具有普适性,最终并不那么有用。
而新一代助手会更加有能力,所以这实际上非常令人兴奋。
我实际上看到像Gemini以及我们自己对未来多模型助手的设想,比如Astra项目,在通往AGI系统的关键路径上,它们实际上推动了朝那个方向的研究。
我们有一个展示Astra的视频:
这只是一个基本的全能助手的开始,它可以在你的日常生活中帮助你。还会有不同的形式,你可以在手机上看,你可以在眼镜等设备上看,我无法告诉你这会有多么惊人。
如果我们回到五年前,你告诉我我们会达到现在这个地步,你只需要用相机指向某物,它就能完全理解你周围的空间环境,这相当不可思议。
它有点像是已经掌握了概念,并且理解什么是物体,甚至能通过窗外随机的一瞥认出我们所在的位置。像记忆这样的功能,它能记住你把东西放在哪里,这对助手来说也非常有用,还有个性化,所有这些都是我所说的下一代助手的一部分,我称之为通用助手。
因为我想象你会带着它到处走,使用不同的设备,无论它是在和你玩游戏,还是在你的桌面上帮助你工作,或者在移动设备上随你一起旅行,都是同一个助手。
Q:一些人可能认为当前的进展是向AGI迈进的一步,而另一些人则认为现在的方法存在本质的局限,这种局限是目前的方法无法克服的。
你认为这种进展是正在逐步接近目标,还是存在其他更复杂的问题需要解决?
哈萨比斯:
我们确实需要这些系统,我相信你们都体验过各种先进的聊天机器人。
这些系统目前还比较被动,主要是问答系统。虽然它们在回答问题、进行基本研究或文本总结方面颇有用处。
我们接下来想要的是更多基于Agent的系统,能够完成你指派的具体任务。这正是一个高效的数字助手应该提供的功能,例如规划假期、安排城市行程、购买活动门票等。
因此,这些系统需要能够在现实世界中进行行动、执行计划和推理。我们需要更好的规划能力、推理、行动执行能力,更强的记忆力,以及更精准的个性化,使系统能够理解用户的偏好并记住用户的指示和喜好,所有这些技术都是必需的。
我们的一些游戏程序,比如在围棋上击败世界冠军的AlphaGo,就包含了规划和推理,虽然这些都是在游戏这一狭窄领域内。我们必须将这些技术现在应用到像Gemini这样的模型上,正如你所见,它能理解其周围的世界。
但如何在游戏之外的混乱的现实世界中进行规划,我认为这是需要实现的下一个重大突破。
Q:那个助手也能达到像AlphaGo那样的国际象棋水平吗?
哈萨比斯:
是的。
所以,确切地说,目前研究界正在进行一场非常有趣的讨论,关于这个问题有两种可能的解决方式。
你可以想象,你的通用Agent系统能够使用工具,这些工具可能是物理硬件如机器人,或者是软件,比如计算器,甚至是其它AI系统。
例如,你可以设想一个通用AI系统,类似于人类大脑,它可以调用AlphaFold或AlphaGo来折叠蛋白质或下围棋。由于这些功能都是数字化的,你也可以考虑将这些能力集成到一个通用大脑系统中,如Gemini。
但这样做需要权衡,因为这可能导致系统过载特定信息,例如过多的棋局信息可能会削弱其在语言处理方面的能力。
这是一个开放的研究问题:是将这些工具保留为独立的AI工具,供通用AI在特定情境下使用,还是将它们整合到主系统中?
对于一些功能,如编程和数学,整合到主系统可能更有益,因为这可以提升系统的整体性能。因此,我们也在研究学习理论、小孩子的发展等,来深入理解哪些功能最适合作为通用工具集成在主系统中。
Q:你们是否仍在努力追求成为类似贝尔实验室那样的研究机构?
哈萨比斯:
我们仍然是一家以研究为主导的机构,这就是我们在Google DeepMind的工作方式。
但是,我们逐渐拥有越来越大的产品供应组,与谷歌的其它部分进行交互。尽管如此,我们仍然尝试保护我们的基础研究,使其能够根据我们自己的研究路线图进行更长远和更开放的思考,而不仅仅是被产品路线图所引导。
Q:你个人是如何跟上这些的?
哈萨比斯:
我之前常常把晚上的时间留给自己,我一直试图保持这样的习惯,作为一个夜猫子,我通常会在午夜到凌晨3点之间思考、阅读研究论文和产生新想法。
但随着时间的推移,尽管我仍然在伦敦,但我在加利福尼亚有了更多的团队。因此,很多原本用于思考的时间现在都用来处理电话会议了。所以,我需要考虑如何重新规划这段时间。
Q:我知道你是签署了关于真实存在性风险警告的公开信的人之一,虽然这种风险没有具体定义。你对希望与灾难论持何种态度?
哈萨比斯:
我认为这个问题的两端都存在很多疯狂的炒作。
一边是现在所谓的“灾难阵营”,人们认为事情肯定会出错。另一边是“Pollyanna阵营”,他们认为这只是另一种技术。
我们在移动互联网的发展中已经见过这种情况。作为一个社会,作为人类,我们具有极强的适应能力,这些变化似乎并不特别。
然而,我坚信这种看法是错误的。我认为这将比互联网或移动互联网等技术的影响要大得多,这是一个划时代的定义。
我认为越来越多的人开始意识到这一点,我从小就有这种想法,这也是我为什么一生都在从事这一领域工作。我相信这将带来巨大的影响。
当然,我之所以全身心投入,是因为我相信AI将对世界产生极其正面的影响。借助AI,我们即将能够治愈所有疾病,通过材料科学和新能源帮助解决气候问题,以及在我们日常生活中提高生产力,丰富我们的生活,并自动处理日常任务。
我认为这些都是令人惊奇的,而且即将到来。
但这些系统存在风险,这些是新系统,是新技术,它们非常强大。我在游戏的微观世界中见证了这一点。
比如下棋,你从一个早上还是随机的系统AlphaZero开始,到上午的咖啡休息时间,它就已经变得比我强了。到了午餐时间,它已经比世界冠军还要强。然后到了下午,在八小时内,它已经超越了世界上最好的固定编程的国际象棋计算机。
在八小时内从随机状态变成世界上最棒的国际象棋实体,我实际上观察了那个过程,这是相当不可思议的。
当然,那只是一个游戏,范围很窄,但我看不出为什么那种能力不能被推广到更通用的系统、语言和世界模型等领域。
因此,它将非常强大,但必须小心处理。
我认为我们现在还不知道。所以我签署那封信的原因是我想对那种“这里没什么可看的”的Pollyanna主义提出一些反对意见,实际上存在一些未知的风险,我们需要定义它们,我认为我们还有时间,但对于这样重大的事情来说,十年并不是很长的时间。
因此,我们需要在可控性、在理论层面上理解这些系统的行为等方面进行更多的研究,还有非常重要的事情,比如如何为这些系统定义目标和价值观,以及如何确保它们坚持这些目标和价值观。
这些都是当前新兴技术中的未知数。
所以我会说我是一个谨慎的乐观主义者。我认为如果我们能团结起来,国际上合作,集中最好的智力,现在就开始行动,我们将能解决这个问题。
因此,我只是在鼓励这种事情发生。我相信,只要有足够的时间和智力,我们可以做对。但是,存在风险,我们不能走捷径。我们需要以应有的尊重和敬畏来对待这项技术。
因为我们正处于这项技术的风口浪尖。
Q:你所说的让我有些不安。你描述的系统,似乎有可能在很大程度上取代人类的价值。
哈萨比斯:
我不这么认为。我认为即将出现一些重要的哲学讨论。这些讨论很快就会展开。比如,我们应该如何扩散?
如果AGI起作用,我们应该处于一个极大丰富的时代,像能源这样的资源不应该存在短缺的情况。所以我认为这确实会改变经济的动态。
我说的是长远来看。因此,我们现在需要开始思考这个问题,为此做准备。比如,我们想如何分配那额外的丰富和财富,我们现在就需要开始考虑这些问题。
参考链接:
[1]https://x.com/GoogleDeepMind/status/1846974292963066199
[2]https://x.com/tsarnick/status/1846994737527771642
文章来自于“量子位”,作者“西风”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md