图片来源:Arts & Science - University of Toronto
我非常高兴地欢迎大家参加这次由Geoffrey Hinton和李飞飞的讨论。Geoffrey Hinton是多伦多大学的名誉教授,被许多人称为深度学习之父,而李飞飞是斯坦福大学的首任红杉计算机科学教授,并且是斯坦福人本中心AI研究所的联合主任。
我要感谢Radical Ventures和其他活动合作伙伴与多伦多大学一起创造了这个难得而特别的机会。多亏了Hinton教授及其同事的开创性工作,多伦多大学几十年来一直处于学术AI领域的前沿。深度学习是推动AI繁荣的主要突破之一,许多关键发展都是由Hinton教授及其在多伦多大学的学生开创的。这种卓越的传统延续至今。
目前很清晰的是,AI和机器学习正在推动整个经济的创新和价值创造。它们还在改变药物发现、医学诊断和先进材料搜索等领域的研究。当然,与此同时,人们对AI在塑造人类未来中的作用也越来越担忧。因此,今天的讨论显然是一个及时且重要的话题,我非常高兴大家能够在这个重要的时刻与我们一同参与。
那么,事不宜迟,现在让我介绍今天的主持人Jordan Jacobs。Jordan是Radical Ventures的管理合伙人和联合创始人,Radical Ventures是一家支持基于AI企业的领先风险投资公司,总部位于多伦多,并在全球范围内运作。此前,他联合创立了Layer 6 AI,并在被TD银行集团收购前担任联合首席执行官,之后他加入TD银行,担任首席AI官。Jordan也是加拿大高等研究院的董事会成员,并且是Vector研究所的创始人之一,这个概念是他与Tomi Poutanen、Geoff Hinton、Ed Clark以及其他几位共同构思出来的。那么,尊敬的来宾们,请和我一起欢迎Jordan Jacobs。
Jordan Jacobs:非常感谢Meric!我首先想感谢多伦多大学的许多人,Meric、文理学院院长Melanie Woodin,以及众多合作伙伴,他们共同促成了今天的活动。这是我们Radical举办的AI创始人年度四部分系列大师班的第一场活动,也是第三年举办。今年的第一场活动就在今天,我们同时以线上和线下的形式进行,所以现在有成千上万的人在线上观看。我们与Vector研究所合作举办这一活动,也非常感谢他们的参与与支持。此外,还有阿尔伯塔机器智能研究所和斯坦福AI研究所的支持,特别感谢李飞飞教授。非常感谢各位合作伙伴的鼎力相助。
我们希望今天会有一场非常有趣的讨论。这是Geoff和李飞飞教授第一次公开共同讨论,虽然他们是朋友,我平时也有机会与他们交谈,但这次是他们首次在公众面前一起对话。所以我认为这将是一次非常有趣的讨论。让我快速介绍一下他们的背景。Geoff常被称为AI的教父,他获得了图灵奖,是多伦多大学的名誉教授,也是Vector研究所的联合创始人。他培养了许多如今在全球范围内AI领域的领导者,包括许多大公司的顶尖研究人员和学术界的领袖。因此,当我们称他为教父时,确实有许多他的'子孙'正在引领AI领域的发展,这一切都可以追溯到多伦多。李飞飞是斯坦福人本中心AI研究所的创始主任,同时也是斯坦福大学的教授。她是美国国家工程院、国家医学科学院以及美国艺术与科学院的当选院士。在2017至2018年休假期间,她担任了谷歌云的首席AI/ML科学家和副总裁。此外,李飞飞教授还培养了许多在全球范围内领导这一领域的重要学生。
对于还没有听说的朋友们,李飞飞教授即将出版一本书,这本书将于11月7日发行,名为《The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI》。我已经读过这本书,非常精彩,大家都应该去买一本。我想给大家读一段Geoff写的封底推荐语,因为比我自己说的要好得多。
Geoff这样描述道:“李飞飞是第一个真正理解大数据力量的计算机视觉研究者,她的工作为深度学习打开了大门。她在书中清晰而紧迫地描述了她帮助释放的AI技术的巨大潜力和风险,并且她关于行动与集体责任的呼吁在这个关键历史时刻尤为必要。”所以,我强烈建议大家提前预定这本书,并在它出版后尽快阅读。
好了,非常感谢李飞飞和Geoff能参加今天的讨论。我认为毫不夸张地说,如果没有这两个人,现代的AI时代将不复存在,至少不会以现在的形式出现。所以让我们回顾一下我认为是AI的“宇宙大爆炸”时刻——AlexNet和ImageNet。Geoff,你愿意从你的角度谈谈那个时刻吗?现在已经过去11年了。
Geoffrey Hinton:好的,在2012年,我的两名非常聪明的研究生赢得了一场公开比赛,他们展示了深度神经网络可以远远超过当时的现有技术。其实如果没有一个大数据集供他们训练,这是不可能实现的。而在那之前,还没有一个标注好的大规模图像数据集,而这个数据集正是由李飞飞负责的。我要从询问李飞飞教授开始,看看在构建这个数据集时有没有遇到什么问题。
李飞飞:谢谢Geoff,也谢谢Jordan,感谢多伦多大学,非常高兴能够参与这次活动。是的,Geoff你提到的数据集叫做ImageNet,我从2007年开始构建它,接下来的三年几乎都在和我的研究生们一起工作来完成它。你问我在构建过程中是否遇到过问题?我该从哪里说起呢?
其实从这个项目的构想到实施,已经遇到了不少问题。当时我是一个年轻的助理教授,记得那是我在普林斯顿大学担任助理教授的第一年,领域内一位非常受尊敬的导师,在2007年我告诉他们这个计划时,他劝我不要做这个项目。
Geoffrey:那应该是很大的压力吧?
李飞飞:确实,他们给出的建议是,如果我做这个项目,可能会影响我获得终身教职的机会。此外,我还尝试邀请其他合作伙伴,但没有人愿意在机器学习或AI领域接近这个项目。当然,也没有任何资金支持。
Jordan:能给我们介绍一下ImageNet,特别是给那些还不太了解的人?
李飞飞:好的,ImageNet的构想大约是在2006年到2007年。构建ImageNet的原因其实有两个。首先,Geoff,我想我们有相似的背景,我接受的是科学家的训练。对我来说,做科学研究就是追寻“北极星”。在AI领域,特别是在视觉智能方面,对我来说,物体识别,即让计算机能够识别图像中的物体,比如识别出图中的桌子或椅子,这就是所谓的物体识别,应该是我们领域中的一个“北极星”问题。我觉得我们真的需要在这个问题上有所突破,所以我想要定义这个北极星问题。
这是ImageNet的一个方面,另一个方面是我意识到当时的机器学习有些停滞不前。我们在构建非常复杂的模型,但没有足够的数据来驱动这些机器学习模型。用我们的术语来说,这其实是一个泛化问题,对吧?我意识到我们需要重新思考机器学习,转向一个数据驱动的视角。所以我决定大胆一点,制作一个前所未有的数据集,无论是在数据量上还是在多样性上都超越以往。经过三年的努力,ImageNet成为了一个包含1500万张互联网图像的数据集,涵盖了22000个物体类别概念。
Geoffrey:为了做个比较,当时在多伦多,我们制作了一个名为CIFAR-10的数据集,它包含了10类物体,总共60000张图像。做这个数据集花了很多功夫,每张图像的成本是5美分。
Jordan:然后你将这个数据集转变成了一场竞赛。能否为我们介绍一下这意味着什么,然后我们快进到2012年。
李飞飞:我们在2009年完成了数据集,并勉强在一个学术会议上做了一张海报展示,但没人关注。当时我有点绝望,但我坚信这是正确的方向。于是我们开源了数据集,但即使是开源后,仍然没有引起足够的重视。所以我的学生和我决定增加一点动力,发起一场竞赛,邀请全球的研究社区通过ImageNet来参与物体识别问题。因此,我们举办了ImageNet竞赛。我们得到的第一批反馈来自朋友和同事们,他们认为数据集太大了,甚至无法装入硬盘,更别提内存了。
因此,我们创建了一个较小的数据集,称为ImageNet挑战数据集,只有100万个图像,分布在1000个类别,而不是22000个类别。这个数据集在2010年发布。我记得你们在2011年注意到了它,对吗?
Geoffrey:在我的实验室里,我们的深度神经网络已经在语音识别方面表现得相当不错了。然后Ilya Sutskever说,我们现有的技术应该能够赢得ImageNet竞赛。他试图说服我参与,我说,这可是一大堆数据啊。他又试图说服他的朋友Alex Krizhevsky,但Alex起初并没有兴趣。所以Ilya先处理了所有数据,将其格式化。
李飞飞:你们缩小了图像的尺寸,对吧?
Geoffrey:是的,他稍微缩小了一下图像的尺寸,并将其预处理得非常完美,最后Alex同意参与。
与此同时,在纽约的Yann LeCun的实验室里,Yann拼命地让他的学生和博士后使用这个数据集,因为他说,第一个将卷积神经网络应用于这个数据集的人一定会赢。但他的学生们都不感兴趣,他们都忙着做其他事情。于是,Alex和Ilya继续进行了他们的工作。
我们通过运行上一年的竞赛数据发现,我们的技术比其他技术好得多,所以我们知道我们会赢得2012年的比赛。然后出现了一个政治问题,我们担心如果证明神经网络赢得了比赛,计算机视觉领域的人尤其是Jitendra Malik,可能会说,这只是证明了数据集不好。所以我们必须事先让他们同意,如果我们赢了比赛,就证明神经网络是有效的。于是我打电话给Jitendra,我们讨论了可能使用的数据集。我的目标是让他同意,如果我们在ImageNet上取得成功,那就证明了神经网络的有效性。经过一些讨论后,他建议我们尝试其他数据集,但最终我们达成一致:如果我们能够成功应用于ImageNet,那就证明神经网络有效。Jitendra记得这是他建议我们使用ImageNet的。
他认为是他告诉我们要做ImageNet的,但实际上有点相反。我们做到了,结果令人惊叹。我们的错误率只有标准技术的一半,而这些标准技术经过了多年的调优,由非常优秀的研究人员开发。
李飞飞:我记得当时的标准技术是支持向量机稀疏化(ZP注:一种支持向量机的改进算法)的。你们提交比赛结果的时间大约是在8月底或9月初。我记得那天晚上很晚时收到了一封电子邮件或电话,是我的学生发来的,他负责运行这次比赛。我们负责处理测试数据,目的是处理所有参赛者的结果并选出获胜者。那一年,国际计算机视觉会议ICCV 2012将在意大利佛罗伦萨举行,我们已经预订了年度研讨会。
在那次会议上,我们将宣布获胜者。这是第三年了,所以我们提前几周就要处理获胜队伍的结果。坦白说,前两年的结果并没有让我感到兴奋。而且当时我还是一位哺乳期的妈妈,所以我决定不参加第三年的活动,也没有订票。我觉得离我太远了。但是那天晚上结果出来了,是通过电话还是电子邮件,我真的记不清了。我记得当时对自己说,'糟了,Geoff,现在我必须买一张去意大利的机票',因为我知道那是一个非常重要的时刻,尤其是卷积神经网络,这个我在研究生时学到的经典算法发挥了作用。
当然,到了那时,已经只剩下从旧金山飞往佛罗伦萨的中间座位的经济舱机票了,还得中途转机。这次去佛罗伦萨的旅途很艰辛,但我想要亲自见证那个时刻。不过你没有去,对吗?
Geoffrey:没去。是的,那真是一次艰辛的旅途。
李飞飞:但你知道那会是一个历史性时刻吗?
Geoffrey:是的,我确实知道。
李飞飞:我明白了,然后我把这个消息发给了Alex。Alex,那个忽视我好几次邮件的家伙。
Geoffrey:他无视了你所有的建议,对吗?
李飞飞:是的,我给他发了很多邮件,建议他做一些可视化,我说'Alex,这太酷了,请做这个可视化、那个可视化',但他一直没回应我。不过Yann LeCun来了。对于那些参加过学术会议的人来说,你们知道研讨会通常会安排在较小的房间里。我们预订了一个非常小的房间,可能就只有现在这里中间区域这么大。我记得Yann不得不站在房间的后面,因为房间里挤满了人。最终,Alex也来了,我非常紧张,担心他根本不会出现。正如你所预测的那样,在那个研讨会上,ImageNet受到了攻击,有人公开批评这是一个糟糕的数据集。
Geoffrey:不是Jitendra,因为他已经同意了数据集的有效性。
李飞飞:我不记得Jitendra是否在那个房间里,但我记得对我来说那是一个非常奇怪的时刻。作为一个机器学习研究者,我知道历史正在被创造,但ImageNet却在被攻击。那真是一个非常奇怪又令人兴奋的时刻。然后,我不得不坐在中间座位飞回旧金山,因为第二天早上我还有事。
Jordan:你提到了几个人,我想稍后再讨论他们。比如Ilya,他是OpenAI的创始人兼首席科学家,Yann LeCun后来成为了Facebook(现在的Meta)AI负责人。此外,还有很多其他有趣的人物。但在我们继续探讨这场AI热潮的成果之前,让我们先回顾一下。你们两位最初都怀抱着非常具体的目标,这些目标既个人化,又可以说是打破传统的。你们经历了很多挑战,但始终坚持了下来。Geoff,你能先给我们介绍一下,为什么你最初想进入AI领域?
Geoffrey:我本科时学的是心理学,但成绩不太好,我觉得如果不先搞清楚大脑的工作原理,心理学是永远无法弄清楚心智的运作方式的。所以我想弄清楚大脑是如何工作的,并希望能有一个真正有效的模型。
你可以把理解大脑想象成搭建一座桥。一方面是实验数据,可以从中学到很多东西;另一方面是可以实现我们所需计算的东西,比如识别物体的能力。这两者之间存在很大差异。我一直觉得自己是在研究那些能够真正运作的东西,并试图让它们越来越像大脑,但同时它们仍然能起作用。其他人则专注于基于实验数据的理论,试图找出可能有效的理论。
我们是在试图建造这座桥,但并没有太多人尝试这样做。Terry Sejnowski是从另一端尝试建造这座桥,所以我们合作得很好。很多做计算机视觉的人只想找到有效的解决方案,他们并不关心大脑。而那些关心大脑的人则专注于了解神经元如何工作等,但并不太关注计算的本质。我依然认为,我们必须通过让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥。所以我的目标一直是创造能进行视觉识别的技术,并且这种识别方式要像人类那样。
Jordan:我们稍后会回到这个问题。我想问你关于最近的发展,以及你如何看待它们与大脑的关系。
飞飞,Geoff刚刚概述了他的起点——从英国到美国,再到加拿大,80年代中后期到1987年他来到加拿大的过程中,对神经网络的关注和资金支持经历了起起伏伏。飞飞,你的起点则完全不同,你能否分享一下你是如何进入AI领域的?
李飞飞:是的,我的生活起点是在中国。15岁时,我和父母一起来到新泽西州的帕西帕尼市,成为了一名新移民。我开始的时候是上英语作为第二语言的课程,因为我不会说英语,课余时间在洗衣店和餐馆打工。但我对物理学充满了热情,不知道为什么我会有这样的想法。我当时想去普林斯顿,因为我知道爱因斯坦曾在那里。后来我真的考上了普林斯顿,虽然他早已不在了,但校园里有他的雕像。我在物理学中学到的,除了数学之外,最重要的是敢于提出最疯狂的问题,比如原子世界中最小的粒子,或者空间时间的边界,宇宙的起源。在此过程中,我在大三时接触到了大脑,读了Roger Penrose的书。你可能有自己的看法,但至少我读过那些书。
Geoffrey:也许你没读过那些书反而更好。
李飞飞:当我毕业的时候,我想作为一个科学家提出最大胆的问题。而对我这一代人来说,2000年时,最吸引人、最大胆的问题就是智能。所以我去了加州理工学院,几乎算是同时攻读了两个博士学位:一个是跟随Christof Koch学习神经科学,另一个是跟随Pietro Perona学习AI。所以Geoff,我非常赞同你关于“桥梁”的说法,因为那五年让我可以同时研究计算神经科学,了解大脑如何运作,也可以从计算的角度入手,尝试构建能够模拟人类大脑的计算机程序。这就是我的旅程,它从物理学开始。
Jordan:好的,你们的旅程在2012年ImageNet上交汇了。
李飞飞:顺便说一下,我在研究生时就认识Geoff了。
Geoffrey:我记得我经常去Pietro的实验室参观。事实上,他曾在我17岁时给我提供了加州理工学院的工作。
Jordan:所以你们在ImageNet上相遇了。对于这个领域的人来说,大家都知道ImageNet是一个重要的'大爆炸'时刻。在那之后,首先是大科技公司进场,基本上开始挖走你们的学生和你们自己,显然是他们最早意识到了这项技术的潜力。我想聊一聊这个过程。但快进到现在,我认为自ChatGPT问世以来,公众才真正意识到AI的强大,因为他们终于可以亲自体验它了。人们可以在董事会会议中讨论AI,回家后,孩子也可以用ChatGPT写出一篇关于恐龙的五年级作文。这个广泛的体验改变了人们对AI的认知,但在这十年间,大科技公司内部的AI爆炸式增长却很少被外界察觉。你能分享一下你的经历吗?因为你从ImageNet之后就身处这个“零点”。
Geoffrey:我们很难进入其他人不明白发生了什么的视角,因为我们清楚地知道发生了什么。许多本应处于前沿的大学在接受这一技术上反而非常迟缓。例如,MIT和伯克利。我记得在2013年时,我去伯克利做了一场报告,尽管那时AI在计算机视觉领域已经取得了很大的成功。报告结束后,一名研究生走过来说,他已经在这里学习了四年,这是他第一次听到关于神经网络的讲座。他觉得非常有趣,而他们早就应该了解这些了。
李飞飞:他们应该去斯坦福。
Geoffrey:MIT也一样,他们强烈反对使用神经网络,但ImageNet的成功开始让他们转变立场。现在他们是神经网络的支持者了,但很难想象,在2010年或2011年,计算机视觉领域的很多专家非常反对神经网络。反对的程度如此之深,以至于某个主要期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》一度有个政策,就是不对神经网络相关的论文进行评审,直接退回,认为这浪费时间,不应该出现在期刊上。
Geoffrey:Yann LeCun曾向一个会议提交了一篇关于神经网络的论文,展示神经网络在行人识别和分割方面优于当时的最先进技术,结果论文被拒绝了。拒绝的理由之一是,评审认为这对计算机视觉毫无帮助,因为他们相信计算机视觉的工作方式是:你研究视觉问题的本质,提出一个算法来解决它,然后再发表论文。
大多数人坚决反对神经网络。然后在ImageNet竞赛之后,发生了一个了不起的事情:他们几乎在一年内都转变了立场。那些曾是神经网络的最大批评者开始使用神经网络,而且比我们做得还好。比如牛津大学的研究人员,他们很快就做出了更好的神经网络。但这正是科学家应有的行为方式:他们曾强烈相信这些技术是无用的,但由于ImageNet的成功,我们证明了它的有效性,他们就改变了立场。这点让人感到欣慰。
Jordan:你们的目标是用神经网络来准确地标注这些1500万张图像,背后你们已经有了这些标签,可以通过错误率来衡量结果。你们的错误率从前一年的26%下降到大约16%。
Geoffrey:是15.3%,确切地说是15.32%。
Jordan:我知道你会记得。随后几年,随着越来越强大的神经网络的使用,错误率持续下降。
李飞飞:在2015年,有一个非常聪明的加拿大本科生加入了我的实验室,他叫Andrej Karpathy。他有一个夏天感到有点无聊,决定测量人类在ImageNet上的表现。你可以去读读他的博客。他组织了很多人类参与ImageNet测试的派对,我想他给了他们披萨作为奖励,和实验室的学生一起进行测试。他们的准确率大约是5%,或者是3.5%。
Jordan:我记得是3.5%。也就是说,人类在3%左右的时间里会犯错误。
李飞飞:我记得是在2016年,那一年的优胜算法ResNet超越了人类表现。
Jordan:最终你们不得不取消了这场比赛,因为机器表现得远远超过了人类。
李飞飞:我们不得不停止比赛,因为我们用完了资金。
Geoffrey:那个学生最初在多伦多大学学习,然后去了你的实验室,后来成为了特斯拉的研究负责人。
李飞飞:首先,他来到斯坦福成为我的博士生。昨晚我们还在聊这件事,其实在这个过程中有一个突破性的博士论文。后来他成为OpenAI的创始团队成员之一,但之后去了特斯拉。
李飞飞:他现在回来了。不过我确实想回答你关于那十年发展的问题。
Jordan:那十年沿途有几项重要的进展,比如Transformer。Transformer的研究和论文是在谷歌内部完成的,另一位加拿大人Aidan Gomez是论文的合著者,他现在是Cohere的CEO和联合创始人。当时他是谷歌大脑的实习生,年仅20岁。加拿大人一直在这些突破中扮演着重要角色。Geoff,你当时在谷歌,那篇论文写出来时,谷歌内部是否意识到它的重要性?
Geoffrey:我不认为有这种意识。也许作者们知道,但我花了好几年才意识到它的重要性。在谷歌,直到BERT(ZP注:是2018年10月由Google AI研究院提出的一种预训练模型)使用了Transformers,并且在许多自然语言处理任务上表现得更好,大家才意识到Transformers的特殊之处。
李飞飞:2017年Transformer论文发表时,我也刚加入谷歌。我记得我们在我第一周见过面。我想2017年和2018年大部分时间,谷歌主要的赌注是神经架构搜索,那时用了很多GPU,所以这是一个不同的方向。
Geoffrey:简单解释一下,神经架构搜索基本上就是获取大量的GPU,尝试各种不同的架构,看看哪个效果最好。自动化这一过程就是神经网络架构的自动进化。
李飞飞:同时也调整超参数(ZP注:AI语境下,超参数指机器模型外部的一种配置,其值无法从数据中估算出来),对吧?
Geoffrey:是的,这确实带来了一些显著的改进,但远远不及Transformers。Transformers在自然语言处理方面带来了巨大的改进。
李飞飞:神经架构搜索主要用于ImageNet。
Jordan:我来说一下我们对Transformers的经历。当时我们正在做Layer 6这家公司,我记得我们提前看过那篇论文的预印本。当时我们正处于融资和收购要约的过程中,读完论文后,我和我的合伙人讨论过,他曾和你(Geoff)一起学习过,还有Maksims Volkovs,他是从Geoff的实验室出来的。我们认为这是神经网络的下一次迭代。于是我们决定卖掉公司,成立一家风险投资公司,投资那些将使用Transformers的公司。我们估计这项技术需要五年才能被谷歌以外的公司采用,接下来十年,全球所有的软件都将被这项技术替代或嵌入。
我们在ChatGPT发布前五年零两周做出了这个决定。我很高兴看到我们的预测是准确的,但我要向我的合伙人们致敬,他们比我更深入地理解了那篇论文,并能够完整地向我解释它。
Geoffrey:我需要更正一下,你提到的Tomi其实从未和我一起学习过。他本来想来跟我学习,但我们系里的一个同事告诉他,如果他选择和我一起工作,那将会是他职业生涯的终结。
Jordan:所以他确实上过一些课,但他并没有跟Geoff学习。这是我的合伙人,他在90年代末在多伦多大学攻读硕士学位时,想跟Geoff学习神经网络。当时他女友(现在是他妻子)的父亲是一位工程学教授,告诉他不要这样做,神经网络是死路一条。所以他上了课,但最终写了一个关于加密货币的论文。
李飞飞:你们还会谈那十年吗?因为我觉得有一些重要的事情。
Jordan:请继续。
李飞飞:我认为有一个很重要的事情全世界忽视了,那就是在ImageNet、AlexNet和ChatGPT之间的这十年。大多数人将这十年视为技术发展的十年,在大科技公司里,事情逐渐酝酿起来,比如序列到序列的Transformer,虽然进展缓慢,但却有重大的意义。但我个人认为,这不仅仅是技术的十年,也是从技术到社会的转变。我个人在这十年里从一个科学家转变为一个人文主义者。因为在我加入谷歌的两年间,正值Transformer论文的发表期间,我开始意识到这项技术对社会的影响。
这是AlphaGo之后的时刻,很快我们又到了AlphaFold的时刻。此时,偏见问题和隐私问题开始浮现,我们也开始看到虚假信息和误导性信息的苗头,之后便开始讨论AI对工作的影响,虽然最初只是小圈子里的讨论,但很快成为了公共话题。
那时我个人开始感到焦虑,2018年,尤其是在剑桥分析事件之后,技术对选举的巨大影响变得清晰起来,虽然不全是AI,但却是算法驱动的技术。这时我做出了个人决定,要么继续留在谷歌,要么回到斯坦福。如果我回到斯坦福,唯一的原因就是建立以人为本的AI研究所,真正理解这项技术的人文一面。所以我认为这十年非常重要,尽管在公众眼中它没有那么显著,但这项技术已经逐渐渗透到我们生活的方方面面。当然,到2022年,这一切都变得非常清晰,技术的重要性变得显而易见。
Jordan:那段时间还有一个有趣的事情,就是最终你、Ilya和Alex都加入了谷歌。但在此之前,有一家大加拿大公司有机会接触这项技术。我听过这个故事,但好像从未公开分享过,也许你可以分享一下?
Geoffrey:好的,我们用于ImageNet的技术,其实是我们在2009年为语音识别开发的,专门用于声学建模部分。你可以获取声波,并将其转化为一种叫做频谱图的东西,它显示了每个时间点上各个频率的能量。这些频谱图你可能见过,而我们想要做的,就是通过观察频谱图来猜测哪个音素的哪个部分在频谱图的中间帧中被表达。
我有两个学生,George Dahl和另一个我与Gerald Penn共同指导的学生Abdo,他的名字很长,我们都叫他Abdo。他是语音专家,George是学习领域的专家。在2009年夏天,他们做出了一个模型,表现比30年来语音研究的大型团队做出的成果还要好,虽然差距没有ImageNet那样大,但确实表现更好。之后,George去了微软,Abdo去了IBM,他们将这个模型带到了微软和IBM,两大语音研究团队开始使用神经网络。
我还有一个学生Navdeep Jaitly,他想把这种语音技术带到一家大公司,但由于复杂的签证原因,他希望留在加拿大。所以我们联系了黑莓公司(RIM),告诉他们我们有一种新的语音识别方法,效果优于现有技术。我们提出让一名学生在夏天去他们那里,展示如何使用这项技术,这样他们就可以拥有最好的手机语音识别技术。经过一些讨论后,黑莓的一位高级主管表示不感兴趣。所以我们尝试将这项技术提供给加拿大工业的努力失败了。于是Navdeep将这项技术带到了谷歌,谷歌是第一家将其投入项目的公司。
差不多在我们赢得ImageNet比赛的同时,George和Abdo的语音识别声学模型也被应用了。虽然有很多工作让它成为一个好的产品,比如降低延迟等问题,但最终它被用在了安卓系统中。有那么一个时刻,安卓的语音识别突然变得和Siri一样好,而这就是神经网络的功劳。我认为,这对大公司高层来说是另一个重要因素:他们看到了这项技术在视觉方面取得的惊人成果,也看到了它已经在语音识别产品中运作良好。所以他们意识到,神经网络不仅能做语音识别,还能做视觉识别,显然,它能够做任何我们想要的任务。
Jordan:我们确实错失了一些机会。
Geoffrey:的确,这很遗憾。可惜的是,加拿大工业没有抓住这个机会。如果当时他们采纳了这项技术,也许我们今天还在用黑莓手机。
Jordan:我们就先聊到这吧。我之前听过这个故事,但我觉得让公众知道这个幕后故事很重要,这项技术本可以留在加拿大,甚至是免费提供给他们的。
好吧,让我们继续往前看。现在Transformer之后,谷歌开始以多种方式使用并开发这项技术。OpenAI成立时,你的前学生Ilya离开了谷歌,与Elon Musk、Sam Altman、Greg Brockman等人成立了OpenAI。Ilya是首席科学家,而Andre,你的学生也是OpenAI的早期成员。他们组成了一个非常小的团队,最初的想法是要构建AGI(通用AI)。Transformer论文发表后,他们开始采用这项技术,并在内部取得了非凡的进展,但他们并未公开分享他们在语言理解和其他领域取得的成果。他们还在机器人领域有一些工作,比如Pieter Abbeel创立了Covariant,后来我们也投资了这家公司。但是语言模型方面的发展不断推进。
外界对OpenAI的进展并不了解,直到去年11月30日ChatGPT发布,才让大家关注到。
李飞飞:其实,GPT-2已经引起了一些人的关注。我记得在GPT-2发布时,我的同事Percy Liang,一位斯坦福大学的自然语言处理教授,告诉我,他突然对这项技术的重要性有了全新的认识。Percy立即请求建立一个中心来研究这一领域。我不知道这在多伦多是否有争议,但斯坦福是最早提出“基础模型”这个术语的大学,有些人称之为大型语言模型(LLM),但我们认为它不仅仅限于语言,所以称之为基础模型。我们在3.5版本发布之前就创建了研究基础模型的中心,肯定是在ChatGPT之前。
Jordan:能不能给大家简单介绍一下什么是基础模型?
李飞飞:这是个很好的问题。有些人觉得基础模型必须包含Transformer。
Geoffrey:它需要大量的数据进行训练。
李飞飞:对,我认为基础模型最重要的一个特点是它可以在多个任务上进行泛化。你不会只训练它做某一项任务,比如机器翻译。在自然语言处理领域,机器翻译是一个非常重要的任务,但像GPT这样的基础模型不仅能做机器翻译,还能做对话生成、摘要等很多任务。这就是基础模型。现在我们在多模态领域也看到了它的应用,比如视觉、机器人和视频。所以我们建立了这个中心,但你说的对,公众是在2022年11月才真正注意到这项技术。
Geoffrey:关于基础模型,还有一个非常重要的点:在认知科学领域,长期以来的普遍观点是,神经网络虽然能在有足够数据的情况下做复杂的事情,但它们需要大量的训练数据。人们认为神经网络需要看到成千上万只猫的图片才能学会辨认,而人类的学习效率要高得多——只需要很少的数据就能学会类似的任务。现在,这种观点已经不再那么流行了。
一个神经网络从随机权重开始,可以在有限的数据上学会完成一个任务。如果你想做一个公平的比较,你可以拿一个已经在大量数据上训练过的基础模型,然后给它一个全新的任务,再看看它需要多少数据来学会这个新任务。这被称为“少样本学习”,因为它不需要太多数据。你会发现,这些神经网络在统计效率上相当出色,与人类相比,它们在学习新任务所需的数据量方面表现得非常好。
过去的观点认为,我们拥有大量的先天知识,这让我们比这些神经网络要强大得多,因为它们只能从数据中学习。现在,人们几乎放弃了这种想法,因为你可以拿一个没有先天知识但拥有大量经验的基础模型,给它一个新任务,它能非常高效地学习,不需要大量的数据。
李飞飞:你知道吗?我的博士论文就是关于“一次学习”(Oneshot Learning)的。不过很有趣的是,即便在基础框架中,你可以进行预训练,但只有神经网络的预训练才能真正让你实现多任务学习。
Jordan:这种技术基本上就是在ChatGPT中实现的产品化,全球在10个月前体验到了它,虽然对我们中的一些人来说,感觉时间要长得多,因为突然之间,那个发生了很久之前的“大爆炸”结果开始显现出来。我个人的比喻是,就像是行星和恒星已经形成,大家现在能看到并体验到10年前的成果。当你输入文本提示,生成图像、视频或回答超出你预期的问题时,这种反馈体验让人感觉有些像魔法。
我个人认为我们一直在移动AI的目标线。AI总是被认为是那些我们还做不到的东西,它总是充满魔力的。一旦我们实现了某些功能,就有人会说那不是真正的AI,目标线又会被移动。在这种情况下,当ChatGPT发布时,你的反应是什么?我知道你的一部分反应是你离开了谷歌,决定做一些不同的事情。但当你第一次看到它时,你的想法是什么?
Geoffrey:就像飞飞说的,GPT-2在我心中留下了深刻印象,之后的版本也在稳步发展。此外,我在谷歌内部看到了比GPT-3.5和GPT-4同样出色的模型,比如PaLM。PaLM给我留下深刻印象的原因是,它可以解释为什么一个笑话是好笑的。我一直用这个标准来判断模型是否“理解”了内容:如果它能解释为什么一个笑话好笑,那它就真的明白了。而PaLM确实能做到,虽然不是每个笑话都能解释,但能解释很多笑话。
顺便说一句,这些模型现在解释笑话的能力相当不错,但它们讲笑话的能力却非常糟糕。这是有原因的,因为它们是一次生成一个词。如果你让它们讲一个笑话,它们会尝试讲出听起来像笑话的东西。它们可能会说,“一个牧师和一只獾走进了酒吧”,这听起来有点像笑话的开头。然后它们继续说一些听起来像是笑话开头的话,但当需要讲出笑点时,它们并没有提前思考笑点是什么。它们只是在尝试制造一个像笑话的情境,最后给出的笑点往往很弱,因为它们不得不想出一个笑点。虽然它们可以解释笑话(因为它们能在回答之前看到整个笑话),但它们不能讲笑话。不过我们会修复这个问题。
Jordan:无论如何,你对此的反应是什么?毕竟你一路上见过了很多幕后情况。
李飞飞:我有几种反应。我的第一个反应是,虽然我一直以为我很了解数据的力量,但我还是被数据的力量震撼了。这是一个技术性的反应,天啊,我应该做一个更大的ImageNet数据集,不过资金真的是个问题。
当我看到ChatGPT引发公众对AI的觉醒时,不仅仅是看到GPT-2的技术时刻,我真心觉得,感谢我们过去四年对以人为本的AI的投资。感谢我们与政策制定者、公共部门和民间社会建立了桥梁。虽然我们做得还不够,但至少这些对话已经开始了,我们也参与其中,并在某些方面引领了这场对话。比如,作为斯坦福大学的研究所,我们正在主导一项重要的国家AI研究云法案,这项法案仍在国会通过过程中。
Geoffrey:不过现在国会没在运作。
李飞飞:对,参议院的议程还在进行中。我们预见了这项技术的社会时刻。我们不知道它何时会到来,但我们知道它一定会来。这让我感到了一种紧迫感。说实话,我觉得这是我们作为技术人员和人文主义者必须要应对的时刻。
Jordan:我认为你们两位的共同反应是,我们既要考虑这项技术带来的机会,也要思考它可能带来的负面影响。
Geoffrey:对我来说,有一件事我直到很晚才意识到,那就是让我对社会影响更感兴趣的原因,正如飞飞所说,数据的力量。这些大型聊天机器人处理的数据量是任何人都无法想象的,是我们看到数据量的成千上万倍。它们能够做到这一点的原因是,你可以创建数千个相同的模型,每个模型可以处理不同的数据子集,并从中获取调整参数的梯度,然后这些模型可以共享所有的梯度。因此,每个模型都能从其他模型处理的数据中受益。而我们无法做到这一点。
假设有1万个人,他们分别读了1万本不同的书。每个人读完一本书后,所有人都能知道所有书的内容。通过这种方式,我们可以变得非常聪明。这就是这些模型正在做的事情,所以它们比我们更优秀。
李飞飞:虽然我们在努力尝试做到这一点,但方式不同。
Geoffrey:通过教育实现基本上是无望的,几乎不值得花钱。
李飞飞:除了多伦多大学和斯坦福大学。
Jordan:我曾试图向朋友解释Geoff的幽默感非常讽刺,如果你和他相处足够久,你就会明白。不过,我就让你自己判断吧。
Geoffrey:我们交换知识的方式大致是这样的,这是一个简化的说法。我说出一句话,你弄清楚你需要在大脑中改变什么。如果你相信我,我们也可以用这种方式在模型之间传递知识。
Geoffrey: 我给出一个句子后,你需要在大脑中进行调整,才能让你自己也说出这句话。当然,这取决于你是否信任我。其实,我们也可以用这些模型来做同样的事情。如果你希望一个神经网络架构理解另一个完全不同的架构,你不能只是简单地给它权重数据。所以,你需要让一个网络模仿另一个网络的输出,这就是所谓的“distillation”。虽然这也是我们相互学习的方式,但因为受限于每句话只有几百个bits的信息带宽,效率很低。
但如果你有这些模型,这些digital agents每一个都有数万亿个参数,它们分别处理不同的数据片段,然后共享梯度。这相当于它们在共享数万亿个数据。因此,把它们的知识分享能力和我们几百个bits的信息带宽相比,显然要强大得多。它们在知识分享上远远优于我们。
李飞飞: 我理解你在技术层面上的观点,但听起来这似乎是让你感到特别悲观的一个时刻。
Geoffrey: 那一刻我觉得我们人类的历史也许就这样了。
李飞飞: 我没有你那么悲观,我稍后会解释我的看法。
Jordan: 我们不如聊聊这个。李飞飞,你为什么感到乐观?Geoffrey,为什么你相对更悲观?
Geoffrey: 我之所以悲观是因为通常悲观者总是对的。
李飞飞: 我们之前讨论时我也觉得自己是个悲观主义者,所以我也不确定我现在算不算乐观。当你十五岁来到一个完全陌生的国家,不会说一句当地语言,从零开始时,你会发现我的思维方式其实非常务实。我认为人类和技术的关系比一般学术界的人预期的要复杂得多。因为我们在象牙塔里从事学术研究,总是希望能做出一些新的发现,发明出某种技术,但我们往往会很理想化。然而,当技术,比如AI,进入社会层面,它不可避免地会与人类行为混合交织在一起。这就是为什么你说我是乐观的,我认为这更多是我对人性的信心。
我相信人类,不仅相信人类的韧性,还相信集体的意志。历史的轨迹有时确实摇摆不定,但只要我们做正确的事情,我们还是有机会的,我们还有机会创造一个更好的未来。所以我现在的感受并不是一种盲目的乐观,而是一种责任感和紧迫感。另外,Geoff,我真的希望你能看到积极的一面。当你看到这一代学生时,比如我春季教授的“深度学习和计算机视觉”课程,这门课有六百名本科生。相比五年前,这一代学生已经完全不同了。他们进入课堂时不仅仅是为了学习Deep learning、Transformer和生成式AI;他们还想谈论伦理、政策、隐私和偏见问题。而这正是我看到人性在这一刻崛起的地方。
我认为这种现象很脆弱。看看现在世界上的情况,比如华盛顿的局势,确实很不稳定。但如果我们认清当下的局面,我觉得还有希望。
Geoffrey: 我不再教授本科课程,但我确实看到了一些年轻的教职员工的变化。以多伦多大学为例,两位非常有才华的年轻教授前往Anthropic专注于研究alignment问题。例如Ilya,现在全职致力于这一领域的研究。所以,目前真的有一股强大的变革力量。我个人不太可能提出解决这个问题的创意,但是我可以鼓励这些40岁左右年轻的研究者们继续在这个领域努力,他们现在非常认真地在进行这些研究。
李飞飞: 只要我们能够把最优秀的头脑聚集到这个问题上,这就是我希望的来源。
Jordan: Geoff,你离开Google很大程度上是为了能够自由地表达你对这个问题的看法吗?
Geoffrey: 我离开Google是因为我年纪大了也累了,想退休看点Netflix。而那时我刚好有机会说出一些我对责任的思考,而不必担心Google会如何回应。
Jordan: 你确实开始在媒体上发表了很多意见。在过去的八个月里,你们两位沟通政客的数量可能比这辈子沟通的还多,从总统、总理到国会、议会等等。Geoff,你的担忧是什么,你希望通过表达达到什么目的,以及你觉得是否达到了效果?
Geoffrey: 人们经常讨论AI的风险,但实际上存在很多不同种类的风险。比如,AI可能会导致工作岗位减少,且并不会创造出同样多的新工作机会。这样一来,我们可能会有大量失业的人群出现。我们必须认真对待这个问题,因为AI带来的生产力提升不会惠及那些失去工作的人。富人会变得更富,而穷人会更加贫困。即便有基本收入也不能解决人类尊严的问题。许多人,包括学术界,希望通过工作感受到自己在做有意义的事情。
还有虚假新闻的问题,这是一个完全不同的领域。再有就是战争机器人,这又是一个完全不同的威胁。各大防务部门都希望制造战斗机器人,没有人会阻止他们。或许最终在我们经历了一些机器战争后,会出现类似日内瓦公约那样的协议,就像对待化学武器一样,化学武器在被使用后才被控制。
接下来是存在性风险,这也是我最担心的。存在性风险是指人类可能会被我们创造出的更高级智能所消灭,这种智能可能决定要掌控一切。如果这些智能变得比我们聪明很多,就会出现很多假设。现在是一个巨大的不确定性时期,你不应该过分认真地看待我的话。如果我们创造出比我们聪明得多的东西,因为这些数字智能可以更好地共享知识,所以它们可以学得更多,我们将不可避免地看到这些智能体为完成任务而设立次级目标。如果你希望它们做某件事,它们会先决定需要做另一件事。比如,如果你想去欧洲,你得先去机场,这就是一个次级目标。因此,它们会设定次级目标,而一个非常明显的次级目标就是,如果你想完成任何事情就需要获取更多的控制权。如果你有了更多的控制权,事情就会更容易实现。
因此,任何拥有设定次级目标能力的事物都会设定获取控制权的目标。如果比我们聪明得多的事物想要掌控,我们是无法阻止的。所以我们必须想办法阻止它们产生想要控制的意图。但还有一些希望,因为这些智能体和我们有很大的不同,它们没有进化出竞争和攻击性,它们完全是由我们设计的,它们是“永生”的。对于数字智能,你只需将它们的参数存储在某处,就可以在其他硬件上重新运行。所以,我们实际上已经发现了永生的秘密。唯一的问题是,这不适用于我们。我们是凡人,但这些智能体是“永生”的。这可能让它们变得更加友善,因为它们不需要担心死亡,也不必像人类那样为了生存而竞争。
李飞飞: 就像希腊神话中的众神。
Geoffrey: Elon Musk曾对我说过类似的事情。他认为我们就像是数字智能的启动程序——我们是一种相对愚钝的智能,仅仅足够聪明去创造电脑和AI。而这种智能将会比我们更聪明得多。他认为它们会把我们留下来,因为有人的世界比没有人的世界更加有趣。这似乎是一个非常脆弱的希望,但这与李飞飞提到的希腊神话中的神明模型相似,那些神明有时会留住人类来取乐。
李飞飞: 我想把你提到的四个问题归类:经济、劳动力、虚假信息和武器化,然后再加上灭绝和希腊神话中的神明问题。
Geoffrey: 我忘记提到歧视和偏见了。
李飞飞: 我把它们分成两个类别,希腊神明和灭绝风险属于灭绝性风险,其他所有的称之为灾难性风险。作为AI生态系统的一员,有责任确保我们不会夸大其词。尤其是在与公共政策制定者的交流中。虽然说灭绝风险确实是一个非常值得学术界和智库研究的有趣话题。
Geoffrey: 这也是我多年来的看法。我一直认为这件事距离我们还有很长时间,觉得让哲学家和学者们研究它很好。但我现在认为情况紧迫多了。
李飞飞: 但这个过程并不仅仅是机器在运作,人类也在其中,因此需要更多的细腻思考。比如,我们讨论核能问题时,不仅仅是核聚变或裂变的理论。还涉及到铀和钚的获取、系统工程、人才等一系列问题。我相信你也看过《奥本海默》这部电影。所以,如果我们按照这个方向前进,我觉得我们比以往更有希望。因为我们是一个社会,会设置保护措施,并共同努力。我并不想描绘一个明天就会出现大量机器人统治世界的场景。我们需要谨慎对待这个问题,但我也不否认我们确实需要认真思考。
至于那些灾难性的风险,我更现实。我们需要汇集更多最聪明的人才来应对这些问题。例如武器化是一个非常真实的威胁,我完全同意我们需要国际合作,可能需要制定条约,理解相关参数。尽管我对人类保持乐观,但也不得不承认我们有自我毁灭与相互毁灭的能力。
第二个是虚假信息的风险。2024年美国大选即将到来,AI将会在这个过程中扮演什么样的角色?我们必须处理社交媒体和假信息的问题。目前我看到在技术层面已经有更多的工作在进行,例如数字认证(Digital Authentication)技术的研究,我认为我们需要投入更多资源。Adobe和学术界都在研究这个领域,我希望未来也会有更多初创企业加入。
接着是工作的问题,我非常赞同这点。你提到的最重要的一点就是人类尊严,如果我们做得对,我们将从“劳动经济”转向“尊严经济”,通过机器的协作,人类将因为激情、个性化和专业知识而获得收益,而不再是从事那些艰辛枯燥的工作。这也是为什么斯坦福大学的人类增强研究中心(HAI)有这样一个创立原则,即人类增强(human augmentation)。
在医疗领域,我们已经看到这样的应用。刚开始使用ChatGPT时有一位来自斯坦福医院的医生朋友找到我,说他们用GPT的医疗总结工具帮助医生减轻了负担,使他们有更多的时间专注于患者。这就是一个很好的例子,我们会在更多领域看到类似的情况,甚至是蓝领领域。所以我们有机会把事情做好。
我想再补充一个关于灾难性风险的担忧,那就是权力失衡(power imbalance)的问题。目前我看到的一个正在迅速恶化的权力失衡现象就是公共部门的缺席。我不知道加拿大如何,但目前美国没有一所大学有足够的计算能力来训练一个像ChatGPT这样的模型。我认为,即使美国所有大学的GPT、A100或H100算力加在一起,可能也无法做到。A100还不足以训练ChatGPT。但我们在公共领域中拥有独特的数据资源,比如用于癌症治疗、应对气候变化、经济和法律研究的数据。因此我们需要对公共部门进行投资。如果我们现在不采取行动,我们将会失去整整一代人,并且让这种权力失衡问题变得更加危险。
所以我同意你的看法。我们面临很多灾难性的风险,我们需要尽快应对。这就是为什么我们需要与政策制定者和公民社会合作。所以我不知道我现在说的是乐观或悲观的语气,我自己听起来更像是悲观的,但我确实认为有很多工作要做。
Jordan: 从乐观的角度来看,在过去的六到八个月里,你们都直言不讳地讨论了很多这些问题。我们确实看到了一些重大变化,如Geoff提到的,有关键研究人员转向这些议题,公共和政策也在变化,各国政府确实开始认真对待这些问题了。你们正在为白宫和美国政府提供建议,还和多位总理进行了对话。这在十个月或十二个月前是不太可能发生的。你对目前的方向感到乐观吗?
Geoffrey: 我确实感到乐观,人们终于意识到我们面临着很多问题,包括灾难性的风险和存在性的风险。我完全同意李飞飞的看法,灾难性的风险更加紧迫,尤其是在2024年。我相当乐观,人们现在确实在倾听。
李飞飞: 是的,他们在倾听。但我想说的是,首先,在倾听谁的意见?我看到公共部门和私营部门之间的非对称性,即使在私营部门内,你在听谁的意见?不应该只听大科技公司和明星初创企业的意见。还有很多像农业、教育等领域需要关注。
第二,在所有这些噪音之后,什么才是好的政策?我们讨论了监管与否的区别,我不知道加拿大的立场。通常是美国在创新,欧洲在监管。加拿大呢?
Jordan: 可能在中间。
李飞飞: 那很好。所以我我们需要的是既有激励政策,也有公共部门的建设,解锁数据的潜力。我们有许多数据被锁在政府,比如森林火灾、野生动物、交通和气候数据。在制定技术政策时,我们需要考虑的一个关键点是如何进行有效的监管。我们经常谈论监管或不监管的问题,但实际上,我们需要深入理解监管的具体层次。一个非常紧迫的监管领域,就是当技术以产品或服务的形式呈现,并直接影响人们生活的时候。无论是在医疗、食品、金融服务,还是交通领域,当这些技术与人类交互时,现有的监管框架可能并不完善。因此,我们需要加强和更新现有的框架,而不是浪费时间或可能错误地建立全新的监管系统。这样可以更快、更有效地解决问题。
Jordan: 我还有最后两个问题。第一个问题是,这项技术几乎将影响所有领域,其中的一些正面影响非常显著,比如帮助治愈癌症、糖尿病等疾病,缓解气候变化,还能推动新材料的发明。这些新材料可以应用在能源、航空航天和制药领域,这确实是多伦多大学正在进行的一项重大努力。我们现在可以实现以前无法想象的新世界,可以说科技在以往只存在于小说或想象中的方式推动着科学进步。你们对这些方面的前景感到乐观吗?
Geoffrey: 我们都非常乐观,我认为这项技术将对几乎所有领域产生巨大的影响。
Jordan: 对于现在正在学习的学生来说,这是一个非常激动人心的时刻,他们有机会参与进来,减少负面影响,同时也可以利用这个机会创造新的可能性,解决我们长期以来面临的问题。这确实是人类历史上最非凡的时刻之一。对于那些即将开始职业生涯的人,我的建议是尽量去思考最大的挑战,思考如何利用这项技术来解决那些极具挑战性的问题。尽量把眼光放远,去追求那些最艰难、最有挑战性的目标。
李飞飞: 我鼓励大家不仅要接受这项技术,还要意识到这是一个新篇章。即便你认为自己是技术专家或科学家,也不要忘记自己身上也有“人文主义者”的一面,因为你需要这两者才能为世界带来积极的变化。
Jordan: 最后一个问题,我们现在是否处在一个这些机器已经具备理解和智能的阶段?
Geoffrey: 是的。
李飞飞: 不是。
Q1: 你提到教育中的挑战,特别是如何让大学能够赋能学生使用这项技术并进行学习。李飞飞也提到这项技术可以创造一个“尊严经济”,让人们能够专注于个性化和激情方面的工作,而不仅仅是为了经济生存。我想问的是,你们是否担心在教育和职业生涯中,尤其是对孩子和学生来说,过度依赖AI可能会带来的问题?他们需要培养技能,动脑思考,锻炼大脑,如果不学习大脑就会变得迟钝。你们对这方面的过度依赖有什么看法?比如当我们有了可以使用Stable Diffusion生成画作的工具,或者当你有了可以像Shakespeare那样写作的ChatGPT,学习这些技能的动力是否会减少?随着这些系统不断进化,能够解决更复杂的问题,这对我们的能力会有怎样的影响?
Geoffrey: 这个问题让我想起了以前口袋计算器刚出现时,人们说孩子们会忘记如何做算术,但事实证明这并不是一个大问题。孩子们可能确实忘记了算术,但他们有了口袋计算器。不过这可能不是一个很好的类比,因为口袋计算器并不比他们聪明。孩子们可以忘记算术,然后去做真正的数学。但面对AI,我并不确定。
对我自己来说,我发现这反而让我对世界更感兴趣了,因为我不需要花半小时去图书馆找书,只需要问ChatGPT就能得到答案。这确实激发了我的好奇心,因为我能更快地获取答案。
李飞飞: 我想用一个小故事来回答这个问题。自从我成为斯坦福大学的教授以来,我一直对大学里的一个神秘办公室感到好奇,那就是招生办公室。我从来不知道他们在哪里、是谁或是他们的办公地点,直到今年早些时候我接到一个电话,他们想和我讨论关于ChatGPT和大学招生的问题。他们的问题是,我们是否应该在招生过程中允许使用ChatGPT。现在有了ChatGPT,我们该如何进行招生?
于是我回到家,与我11岁的孩子讨论了这个问题。我告诉他,我接到了一个电话,谈论关于ChatGPT和学生申请的问题。如果一个学生提交了最完美的申请,但是用了ChatGPT,我们应该怎么办?我问他,你会怎么处理呢?他说,斯坦福应该录取那些最会使用ChatGPT的前2000名学生。最初我觉得这个答案很荒唐,但后来我意识到这是个很有趣的答案。孩子们已经把它当作一种工具来看待,他们把自己与这个工具的关系视为一种赋能的方式。显然,我11岁的孩子不知道如何衡量这点,这意味着什么。但我认为,这就是我们应该看待教育的方式,我们应该更新我们的教育体系。我们不能像Geoff所说的那样把这种工具排除在我们的教育之外。我们需要拥抱它,并教育人类,让他们知道如何利用这个工具为自己带来好处。
Q2: 现在我们拥有非常好的基础模型,但在许多应用中我们需要模型的实时性能。你如何看待这个领域的研究方向,利用这些专家级的基础模型来训练更小、更快的模型?
李飞飞: 我们需要开始思考性能、推理过程,同时还要让模型适应不同的设备,这取决于使用的情况。不进入技术细节的话,所有这些研究,包括超出研究范围的情况,确实正在发生,但这需要时间。
Q3: 在你们20多岁时,是什么驱动你们成为研究人员?是什么促使你们进入学术界和AI领域?因为我现在有点困惑,不知道该继续进入industry,还是直接读博,或者先读硕士再回到industry?还有一个问题,如果我申请直接进入你的实验室读PhD,你通常会看重什么?是GPA、发表的论文,还是推荐信?
Geoffrey: 我对大脑如何工作产生兴趣是在我十几岁的时候,因为我有一个非常聪明的朋友,有一天他来到学校,谈论全息图,还提到大脑中的记忆可能像全息图一样。而我的反应是,什么是全息图?从那时起,我就对大脑如何工作产生了兴趣。所以,是因为在学校有一个非常聪明的朋友。
李飞飞: 我得说得不客气点,如果你读过我的书,你会知道其实这就是我书中讲的内容。有很多关于AI技术的书,当我开始写这本书时,我想写一个旅程,尤其是给年轻人看的,特别是来自不同背景的年轻人,而不仅仅是某种特定背景的人。这本书讲述了一个年轻女孩的旅程,在不同的环境中,她逐渐认识到自己的梦想并实现了它。这和Geoff刚才说的并没有什么不同,一切都源于热情。不论其他声音如何的热情。这种热情可能来自朋友,来自你看的一部电影,来自你读的一本书,或者是你在学校里最喜欢的学科,任何都有可能。
对于我招的学生,我会寻找他们的热情。我寻找的是雄心壮志,想要改变世界的健康雄心,而不是单纯为了获得一个学位。当然,我也看重技术背景,不仅仅是考试分数,现在的标准确实很高。当你申请博士或研究生项目时,你可能已经有了一些成绩记录,虽然不一定必须有。你可以有完全不同的背景,你可能来自一个弱势背景。我所看重的不是你现在的位置,而是你走过的旅程。这个记录展示了你的旅程,展示了你的热情和信念。
Q4: 我认为benchmarks非常重要,它就像问题。ImageNet本质上是一个问题,人们尝试用模型来回答它。现在LLM的评估非常困难,那些采取行动的generalist agents甚至更难评估。因此,我的问题与这些benchmarks有关。
首先,如果你坐下来和GPT-5、GPT-6或GPT-7交流,你有五分钟的时间去使用它们,你会问什么问题来判断它们是否属于下一代模型?其次是一个更全面的benchmark,我们需要什么样的更综合性的benchmark来评估LLM或generalist agents?
Geoffrey: 这是个非常好的问题。不过我想稍微偏离一下,回答一个相关性不太强但有联系的问题。当GPT-4出现时,这个问题就浮现了——我们如何判断它是否“聪明”?我和Hector Levesque讨论过,他以前是计算机科学系的教授,他的看法几乎和我截然相反。但他非常诚实,对GPT-4的表现感到惊讶,并且想搞清楚它到底是怎么运作的。于是我们聊了很多。我请他给我一些问题去测试GPT-4。他给了我一些问题,我们想通过这些问题判断GPT-4是否真的“理解”它在说什么。
问题是,它真的理解它的回答吗?还是只是利用复杂的统计模型来预测下一个词?有人评论说,要想准确预测下一个词就必须理解之前说的内容。所以,准确预测其实是建立在理解的基础上的。但话说回来,有时候你也可以在不完全理解的情况下做出还不错的预测。那么,GPT-4真的理解了吗?
Hector提了一个问题:“我家的房间刷成了白色、黄色或蓝色。我希望所有房间都变成白色,我应该怎么做?”我知道GPT-4可以回答这个问题,于是我把问题变得更难。我说:“我家的房间刷成了白色、黄色或蓝色。黄色的油漆一年后会褪成白色。我希望两年后所有房间都变成白色,我该怎么做?为什么?”如果你问“为什么”GPT-4会给你解释。
ChatGPT解决了这个问题。它说,你应该把蓝色的房间刷成白色,你不用担心黄色的房间,因为它们会褪成白色。它对措辞非常敏感。如果你不使用“fade”这个词,而是用“change”,就会出问题。有人说他试了但没成功,因为他用的是“change”而不是“fade”。我们理解“fade”是指颜色改变后保持不变。但如果你说“change”,它可能会变颜色,但也可能再变回去。所以,当你换成“change”而不是“fade”时,答案就不一样了。它对措辞非常敏感。
但这让我相信它确实理解了。它还做了其他很多事情。最近有人提出了一个有趣的问题,很多chatbots都答错了,甚至有些人也会答错,但GPT-4答对了。问题是这样的:Sally有三个兄弟,每个兄弟都有两个姐妹,Sally有几个姐妹?大多数chatbots都答错了。
李飞飞: 那人呢?
Geoffrey: 我刚做了一场炉边对话,采访者让我举例说明chatbots出错的例子。我给了他这个例子,他说答案是6个。这有点尴尬,我们就不说他的名字了,但人也会答错。但我不明白,如果不能进行一定程度的推理,你怎么可能答对。它必须在某种程度上建立一个模型。Andrew Ng有一些例子,比如在玩黑白棋时,即使你只给它字符串作为输入,它也会在内部建立一个棋盘的模型。所以我认为它们确实理解了。
Jordans: 进一步说,理解是否意味着跨越了智能的界限?
Geoffrey: 是的,我同意图灵测试对智能的定义。人们只是在我们通过了图灵测试后才开始质疑它。
李飞飞: 我会补充Geoff的回答,我认为他试图推动的是我们如何评估这些大型模型的基本智能水平,不过还有几个其他方面。首先,斯坦福大学HAI的基础模型研究中心正在创建这些评估指标,我认为这项技术已经发展得非常深入,以至于有些benchmarks比你想象的更复杂。比如像ImageNet这样的benchmark,在与政府合作时会更加复杂。我们需要开始针对社会相关问题进行基准测试,而不仅仅是核心能力。还有一点,我想稍微扩展你们的视角,有很多超越LLM的未来AI技术,我们还没有为它们建立好的benchmarks。我的实验室正在做一些关于机器人学习的研究,Google昨天刚刚发布了一篇关于机器人学习的论文。在这个领域将会有很多新的研究。
Q5: 正如你之前提到的,大学缺乏足够的资金来训练基础模型。我想在AI和农业领域做研究,热爱这个方向但资源有限。我可能能设计出一个很好的模型架构,但没有资源去训练它。所以我可能会考虑去企业推广我的想法,但那样一来我就无法掌控这个想法了,我不知道他们会如何使用它。你对这种情况有什么建议吗?
Geoffrey: 如果你能获得一个开源的基础模型,你可以用相对较少的资源去微调这个模型,所以大学依然可以进行微调。
李飞飞: 这是一个现实的答案,但我们正在和高等教育的领导人、政策制定者沟通,呼吁投资公共部门,我们需要建立national research cloud。我不知道加拿大是否有这样的研究云,但我们正在推动美国的建立,让像你这样的研究人员有机会接触到。但你作为学术研究者的优势在于能够接触到那些对公共利益有帮助的data sets。你可以利用这点与政府机构或者社区合作,因为公共部门依然享有很高的信任度。但就目前而言,微调开源模型是个好方法。
Q6: 一家AI初创公司的CEO提出如何负责任地开发AI的问题,很多讨论都围绕这个话题展开。他们想知道作为团队,如何真正成为推动积极影响的领袖,而不是助长负面结果,并且想了解“守护者”的责任究竟意味着什么。
李飞飞:这个问题很棒。关于负责任的AI框架现在已经有很多了。几年前有人统计过,大概有300个不同层面的框架,从国家级到企业级都有。我觉得每家公司都应该有自己的负责任AI框架。你可以借鉴很多现有的框架,甚至像Radical这样的公司也在制定自己的框架。打造你相信的价值体系,意识到AI产品其实是一个系统,从最初问题的定义、数据集、数据的完整性,到模型的开发和最终的部署,都需要建立一个多方参与的生态系统,帮助构建负责任的框架。
另外,建立合作关系也很重要。比如和像我们这样的学术机构合作,或者和关注隐私、偏见等问题的社会团体合作。作为一家公司,你要有自己的立场,但同时也要融入这个生态系统,和有相关经验的人合作。这是我目前的建议。
Jordons:和那些对这个问题感兴趣的人合作非常重要。现在投资界有不少人在思考并引领这个方向。在Radical,我们在每一份投资协议中都加入了一条,公司有义务采用负责任的AI框架。最开始一些律师看到后会问“这是什么东西?”并试图删掉,但我们还是坚持加回去了。我们还在制定一个负责任的AI投资框架,并计划广泛推广。我们和全球多个组织一起合作,过去四年里我们见过7000多家AI公司,投资了其中40家左右。所以我们见识了很多,尝试建立一个供其他公司参考的框架。我们也会开源这个框架,大家可以一起改进它,让它更完善。我觉得各家公司只要主动联系那些志同道合的人,确实可以做出很多有意义的事情。
Q7: 研究人员和工程岗位的从业者今天是否也应该学习管理课程?
Geoffrey:我在Google时带领一个小团队,每六个月我们都会收到员工的反馈报告。其中一份报告上写道:“Geoff非常好相处,但他可能需要上一些管理课程。不过如果他上了管理课程,那他就不再是Geoff了。”这就是我对管理课程的看法。
Q8: 从私营部门的角度来看,我们与各方合作,致力于将NLP和LLM带给更广泛的社会。在公共部门和研究机构,特别是那些拥有大量人才和数据的大学,如何找到最好的方式来找到一种互惠的关系,让我们和他们都有所贡献?
李飞飞: 推动公共部门的投资非常重要,我更倾向于提倡合作。我们需要政府、私营部门和公共部门携手合作。在斯坦福大学HAI的过去四年里,建立一个行业生态系统一直是我们的主要工作之一。我们可以详细讨论这些内容,但如果我和大学领导或高等教育界谈话,我认为我们应该积极地、负责任地拥抱这种合作。每个人可能会用不同的方式称呼它,但我认为这个生态系统非常重要。建立这种合作伙伴关系,成为彼此负责任的合作伙伴,对双方都很重要。资源也是一个重要因素,我们真的会非常感激这一点。
原文:Geoffrey Hinton in conversation with Fei-Fei Li — Responsible AI development
https://www.youtube.com/watch?v=QWWgr2rN45o
编译:Faye Yu, Grace Bo
文章来自于 微信公众号“Z Potentials”,作者“Z Potentials”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner