今晚的节目将从个人的角度深入探讨这一点,我非常高兴地欢迎李飞飞,Dr. Li 参加今晚的节目,她在The Worlds I See 一书中的故事在个人层面上发人深省,也在世界级专业层面上阐述了计算对人类状况的影响,因此,我们相信所有这些技术可以被用来造福社会,这也是我们机构的目标,帮助人们认识并考虑这些技术的最佳用途。
让我介绍一下李飞飞的背景,她是斯坦福大学的红杉计算机科学教授,以及斯坦福人机交互AI研究所的任职者,曾担任斯坦福AI实验室的主任,休假期间担任谷歌的人工智能和机器学习首席科学家,并在那里进行了大量研究,她还在国会和白宫成立的国家人工智能研究资源特别小组中任职,因此,我希望大家热烈欢迎Dr. Li上台。
图片来源:CHM Live
Tom:大家都要赶快去买这本书,也给朋友和亲戚买几本,这本书非常好,李飞飞,我们得看看这个观众有多“书呆子”,有多少人能向别人解释随机梯度下降和反向传播是怎么工作的?飞飞,你在书中谈到了人工智能的历史,能否从1956年开始,告诉我们当时发生了什么,以及研究人员用了多长时间才意识到他们能够解决人工智能的问题?
李飞飞:好的,首先感谢计算机历史博物馆,感谢Daniel和Tom的邀请,我想说,祝大家农历节日的中秋节快乐。我记得好像是1959年,在达特茅斯学院的一个炎热夏天,人工智能的奠基人John McCarthy、Marvin Minsky、Claus Shannon,还有一位成员,他们在DARPA的小额资助下召集了一组计算机科学家,讨论计算的未来,那个时候,John McCarthy刚刚创建了“人工智能”这个领域,他们在那个夏天写了一篇关于人工智能是什么的白皮书。他们讨论了如何解决这个问题,重点关注推理、演绎推理,并试图让机器像人类一样思考、回答问题和做决策,这是一段长达70年的旅程,我们经历了起伏。在70年代,我们经历过关于专家系统的炒作,确实开始看到一些基于一阶逻辑和专家系统的实际应用,但那时的泡沫崩溃得相当严重,那时有杂志封面谈论机器人接管社会,但没有实现,资金流失,学术界和工业界的资助都减少了,军事资金仍然存在,但一些研究人员实际上避免了获得这些资金,因此,整个领域基本上缩小了。
然后到了1990年代,我会说,人工智能领域开始发生安静的革命,公众仍然将那段时期视为人工智能寒冬,但我个人认为那是早春,确实,雪尚未完全融化,但这段时间的驱动力,首先是统计建模,与计算机编程结合在一起,我们开始称之为机器学习,人工智能和机器学习找到了一种语言,通过统计学和机器学习,这些领域开始深入研究,例如自然语言处理、计算机视觉、语音识别等。
个人而言,我在2000年作为加州理工学院的博士生进入人工智能领域,那时公众仍然认为是寒冬,但在我博士生期间发生了两件事,对我这一代人工智能研究者至关重要。一是统计机器学习,那时我研究生阶段的第一堂课名为神经网络模式识别,我们阅读反向传播论文,还涉及支持向量机、贝叶斯网络和核方法,我们使用这些工具来解决人工智能问题,例如计算机视觉;但发生在实验室外的一件事,也在人工智能中起到了决定性作用,就是互联网,因为谷歌是在1999年或2000年成立的,互联网开始给我们提供数据,十年后GPU开始出现。因此,这些因素开始逐渐汇聚,到2010到2012年,公众对人工智能的关注在硅谷真正开始。这个关注点始于谷歌和其他公司试图收购一家公司,这家公司可能连名字都没有,是来自多伦多大学的一个小初创企业,它赢得了图像挑战赛,自那以后,我们进入了现代人工智能的新时代。
Tom:你参与的一个项目在改变人们对可能性的看法方面发挥了非常重要的作用,那就是ImageNet,你和同事们创建了一个包含1500万张照片并进行了标注的数据集,这个项目为什么对推动现代人工智能浪潮如此重要?
李飞飞:对于那些不知情的人来说,ImageNet是一个数据集项目,始于2006年,并花费了几年时间,于2009年发布,最终,在2009年,它成为人工智能领域最大的数据集,包含1500万张互联网图片,由人类进行整理、策划、组织和分类,涵盖22000个自然物体类别。在此之后,我们将该图像作为开源数据集发布,并邀请研究社区参与我们每年的图像挑战赛,鼓励全球的机器学习和视觉研究者参与我们称之为物体识别的挑战,这项挑战自2010年开始,并在2012年达到了一个高潮,那一年的第一名是现在大家所熟知的AlexNet,这是多伦多大学的研究人员,包括Jeff Hinton,Elas Saser,Alex Kushi 完成的,这一时刻对人工智能世界具有象征意义,因为现代人工智能的三个基本要素第一次汇聚在一起,第一个要素是神经网络,第二个要素是大数据,即使用ImageNet,第三个要素是GPU计算,那个时候有两个GPU。今天大家都知道人工智能是由数据驱动的,但在ImageNet之前,人们并不相信数据的重要性,大家都在用完全不同的范式进行人工智能研究,使用的数据量非常少,有时甚至没有,所以这个非常激进的想法是,我们要抛弃这一切,用数据来填充模型,通过数据驱动的方法来推动高容量模型,并在人工智能中实现泛化,这在很多人看来是非常可疑的。
Tom:所以,并没有这种观点,认为一种看待这些神经网络的方式是它们是一个通用函数逼近器,如果你给它们足够的例子,它们就能学习一个函数,将输入和输出之间进行映射,所以这并不是主流观点。我觉得在你的书中有趣的是,你的许多资深同事当时都在问你为什么要这样做,这是一个很好的例子,如果你相信某件事,有时候你应该坚持下去,因为显然它产生了巨大的影响,尽管当时你没有得到同事们的支持。
李飞飞:然而,反观我自己的写作,我确实是从一个批判性的视角出发的。面对科学的进步,我们是否遭遇了挑战?无论是来自资深同事、新同事,还是我们的学生。我经常被学生挑战,我每天或许会产生99个不切实际的想法,但也许其中会有一个闪光的点子,因此接受挑战并不是坏事,因为这些想法尚未经过验证。但我认为,尤其是对于年轻人来说,关键的一课是,遭遇挑战并不意味着你应该放弃,这是一个至关重要的教训。
Tom:从2012年到2024年,你认为我们在这段时间内取得了哪些最重要的进展?
李飞飞:在人工智能领域,2012年也是Jennifer及其同事发现CRISPR的年份,我在2012年进行了一个讨论,结果发现有两个重大的科学技术突破出现在一项研究中,2012年之后,已经过去12年,发生了什么?发生了几件事,在更广泛的研究领域,Alexnet加上图像的时刻是一个重大时刻,它确实为先驱们打开了大门,包括像谷歌这样的科技公司开始加大对深度学习的投资。这是深度学习时代的开始。2016年1月是一个公众时刻,当时AlphaGo与围棋大师李世石对弈,并赢得了比赛,那是第一次公众意识到机器足够强大,能够挑战人类在我们认为深具独特性的任务中,同时,它还引入了一种新的算法类别,称为强化学习,这在深度学习之上。
在2016到2022年之间,是对人工智能的投资和创业的逐渐增加,同时,我们开始感受到技术反感的初步迹象。我会说,对于我们很多人来说,技术冲突是在2016年剑桥分析公司事件后发生的,2016年选举的时候,那时机器学习偏见被指出,自驾车致死事件也发生在那时。大约是在2020年,我们开始有社会对话,既有对技术的兴奋,也有对技术的担忧。所有这些在2022年10月底ChatGPT出现时积累到了顶点。对我们这些研究人员来说,我们早就看到ChatGPT这种情况了。你可能会想,她只是在吹牛,但我会告诉你原因,因为我们在斯坦福人文中心的Cosby研究所,在2021年,我们实际上成立了世界上第一个基础模型研究中心,因为我们看到了GPT-2的结果,那时,公众并不知情,但像我这样的研究人员、我的同事们意识到“哦天哪,这将改变一切”,所以我们立即投入资源来成立这个中心。所以当ChatGPT出现时,我们很庆幸开始这个项目,但也对它迅速引起的关注感到震惊。
AlphaGo时刻和ChatGPT时刻在公众意识上的区别不仅仅在于人数,这是第一次人工智能如此紧密地掌握在个人用户手中,AlphaGo除了围棋大师之外,没有任何用户能够使用,而ChatGPT则触手可及,这不仅是对每个个体的觉醒时刻,也是对政府的觉醒时刻,在ChatGPT之前,我们研究所的一部分使命是弥合技术世界和政策世界的差距,你在华盛顿,我通常不会经常飞往华盛顿,但我会去华盛顿继续这个对话,但在ChatGPT之后,就像华盛顿在召唤我们一样。
这十年里,公众看到的是一些离散的事件,而我们则看到这一切是一个连续的过程。
Tom:那么在研究界,关于这些大型语言模型是否是随机模仿,或者是否存在实际推理的辩论还在继续吗?你对这个辩论有什么看法?
李飞飞:我理解你使用“stochastic parrot”这个词,因为它来自一篇批评大型语言模型的论文,重要的是,我们确实需要从不同的角度批评这些模型,包括它们的能力、能耗、局限性、偏见等等。但从科学的角度来看,我会使用更中立的语气,而不是把它称为“God”或“Parrots”。但它确实是一个规模较大的模型,具有不仅能够模式匹配、学习模式,还能够进行预测的能力,甚至展示出一定程度的推理能力,因为它能够向你解释事物的含义。
几天前刚发布了一个新版本。我个人还没时间去测试它,它进一步提升了推理能力,所以可以说它确实具有模式识别能力,虽然有些人可能称之为“parrot ability”,但它也具有一定的推理能力,我始终非常谨慎,尤其作为一名教育者,我的责任是诚实地与公众沟通,所以我会非常谨慎,不去过分夸大这一点,包括一些更夸张的推测关于意识或意识的存在。
Tom:你认为在接下来的三到五年里,可能会发生什么?你认为当前系统最大的局限性是什么?以及在哪些领域我们可以取得实际进展以改善其性能?一般来说,有些人认为我们可以通过购买更多的GPU来取得巨大的进步。购买200万个GPU而不是两个GPU,以及更多的数据,更多的合成数据,对吧?所以有些人认为,我们可以通过扩大现有技术的规模来取得巨大的改进,而另一些人则认为,今天的人工智能版本存在这些基本限制,我们必须探索新的方法,神经符号方法或类似的东西,你对此辩论有强烈的看法吗?
李飞飞:事实是,我确实认为我们正处于一个真正的人工智能数字革命中,因此,接下来的三到五年将继续对技术非常激动,但对于我们的社会,包括政策,也将充满紧张,你所问的所有问题更多的是在技术层面。首先,我从根本上相信,在人类历史的每一个时刻,技术和科学都是有限的,我们总是可以向前推进边界,就我个人而言,我对超越语言的空间智能感到非常兴奋。如果你看人类和动物的智能,语言只是智能的一个部分,即使我们在研究高级智能,人类文明的建立是基于超越语言的许多内容,从金字塔的建造到第一次工业革命的复杂机械设计,再到DNA结构的发现,再到电影制作的创造,所有这些很多都是建立在超越语言的空间智能之上,因此,确实有许多新领域将被打开,超越语言。
从技术角度来看,我们仍然看到数据的规模法则有非常充足且健康的证据,但同样令人着迷的是,我们越来越多地听到,我们是否正面临数据的极限,尤其是互联网上的文本数据,很可能正在面临限制,但在高等教育的背景下,我也看到许多科学发现的领域数据尚未得到妥善开发,从这些数据的数字化到这些数据的建模。因此我认为,在接下来的三到五年里,由于人工智能和机器学习的推动,我们将在不同领域看到科学发现的蓬勃发展,而不仅仅是大型基础模型的商业化。我们会看到更多的空间智能,我个人对此很感兴趣,接下来的三到五年,不仅是技术的发展,也将是我们如何部署这些模型、如何治理这些模型的年限。目前在加利福尼亚,有关人工智能的法案正在讨论,个人而言,我既支持安全措施和政策措施,也担心即使是出于良好意图的法案可能会对科学和开源社区产生意想不到的负面影响,因此,所有这些都将在接下来的三到五年里展现出来。
Tom:是的,所以我确实想回到政策问题上,但也许你可以给听众更详细地描述一下你所说的空间智能是什么?对于计算机能够看、做和学习,这意味着什么?我们如何知道在空间智能方面是否取得了进展?你在斯坦福大学的一位同事曾说,我们离让机器人出现在一个从未见过的房子并做早餐的目标仍然很远。
李飞飞:这个例子非常遥远,我迫不及待想看到,但确实很远。但如果追溯人类语言的发展,当然这仍然是一个科学研究领域,大致上最早的原始语言出现在大约100万到200万年前的人类早期祖先中,主流观点是今天使用的语言在大约30万年前发展起来。但是,如果你追溯到看见空间、理解三维世界、识别障碍物、寻找食物、导航以及推理的能力,它可以追溯到5.4亿年前,当时,阿拉莫世界的水下生物首次发展了光传感器,随着这种能力的出现,感知开始了。随着感知的开始,动物开始以有意的方式移动,在此之前,它们只是漂浮着,可能触摸了一些东西,因为早期有触觉传感器,但那是非常被动的。
Tom:你是从你的学生那里得到这些想法的吗?
李飞飞:嗯嗯,我和年轻学生一起工作,一旦你能看到这些变化,你就开始发展空间智能,你开始规划你的生活,开始观察食物,开始躲避成为别人食物的命运,这个智能的进化过程就这样开始了。所以,空间智能用今天的语言来概括就是理解、推理、生成和与三维世界互动的能力,现在,我们生活在物理世界和数字世界中,所以这种空间智能同时适用于物理和数字世界,这就回到了,如果你想要一个能到你家做早餐的机器人,机器人最重要的能力之一就是空间智能,因为机器人需要知道冰箱在哪里、炉子在哪里、蛋在哪里?怎么打破一个鸡蛋并把它放入锅中?这一切都是空间智能的一部分。
Tom:关于人工通用智能(AGI)这个概念有很多讨论。我想知道你是否认为这是一个有用的概念。通常人们所指的是,可能会实现一种能做每个人类做的经济上有用的事情的AI,我们能够用某种AGI来做到这一点。首先,你认为这是一个有用的概念吗?其次,有人说,“哦,这将在三年内发生。”你认为这是一种过于乐观的看法吗?
李飞飞:好的,这是个好问题,我必须承认这是一个典型的硅谷问题,我们确实处于这一阶段。有时在我脑海中,我会与人工智能的先驱者们进行对话,比如John McCarthy,Marvin Minsky,Roman Hart。还有Alan Turing,他可能不会称自己为人工智能的先驱,因为他是在用“思考机器”这个问题挑战人类,最终转化为图灵测试,他并没有考虑到“人工智能”这个词,因为那个词还没有被发明,但当我与这些巨人对话时,他们对人工智能的定义会非常相似。智能的一般能力,如果他们称之为人工智能,考虑到这一点,作为学者的我很难将“人工智能”和“人工通用智能”区分开来,因为它们深度重叠。如果你查看“人工通用智能”这个术语的出现,它可能甚至不到十年前,这个词来自更多行业的营销世界,没有什么不好,但从学术、科学、技术、研究者和教育者的角度来看,有些读过我书的人知道,我经常使用“北极星”这个词,作为科学家,我们追逐那些我们可能永远无法在一生中解决的最难的问题,它们激励着我们,人工智能这一领域的北极星始终是那种一般能力。
那么我对“人工通用智能”这个词的看法是什么?当他们发明这个词时没有人问我,这没关系,但我们所热爱的人工智能这一领域,仍然在很大程度上与这个定义重叠。现在,三年内我们会实现这一目标吗?如果我站在风险投资家面前,我会说当然会,但你们不是,我们需要负责,这意味着什么?机器会在重要任务上超越人类吗?我们已经做到了一些。
2006年的达尔帕大挑战是关于无人驾驶汽车的,我同事和他的团队让一辆车在内华达州的沙漠中开了138英里,那是一项令人难以置信的能力;我们有机器可以翻译数十种语言,这只是超人类的能力,我们已经超越了许多任务,包括阿尔法折叠、阿尔法围棋,甚至图像识别,这些都是一些稀有物种,比如星鼻鼹鼠,或者你知道的,许多犬类,这些都是超人类的能力,所以我们已经取得了一些成就,并将继续取得一些,但如果没有清晰的定义,如果全面的定义是成为人类、拥有与人类相同的智能、像人类一样复杂而精细的存在,我不相信三年内会实现。
Tom:好的,那么我们谈谈你在斯坦福进行的以人为本的人工智能计划。首先,你所说的以人为本的人工智能是什么意思?
李飞飞:这是个好问题,对我而言,以人为本的人工智能是一个框架,用于思考我的和你的人工智能工作,因为人工智能是由人创造的,被人使用的,并将影响人们的生活,什么是思考这种技术的指导框架呢?在2018年3月,我仍是谷歌的首席科学家,我写了一篇纽约时报的文章,明确提出这个框架是以人为本的人工智能,正是因为我受到在谷歌工作的启发,我有机会与许多企业接触,从日本的个人开发者,到使用人工智能的黄瓜农民,再到希望利用人工智能彻底改变整个商业模式的财富50强公司。我意识到,这项技术比我想象的更为重要,它将以深远的方式影响我们的生活、商业和世界,这种意识让我不寒而栗,想到一项工具可以如此强大是令人恐惧的,我们最好考虑其影响,而对我而言,这种深刻的影响必须扎根于人类的影响。一旦我考虑到这一点,我和斯坦福的同事们就明确表示,我们需要用以人为本的框架来接触人工智能。
现在,在斯坦福HAI,我们从三个同心圆的角度考虑人工智能对人类的影响:个人、社区和社会。我给你举个例子,个人的影响实际上与每一个人如何使用技术、如何受益有关;如果你是艺术家,你是如何利用它来增强你的创作,还是它在夺走你的知识产权;如果你是病人,这项技术是否使你愈合得更好,而没有剥夺你的人类尊严;如果你是学生,你是如何通过这项技术学习你感兴趣的任何东西的,所以有个人的影响,然后是社区的影响。人工智能如何作为工具帮助资源匮乏的社区呢?例如,人工智能与远程医疗结合,是帮助没有医院和足够医生的社区的一个非常好的案例,同时,人工智能的偏见是否会对某个社区造成更大的影响呢?我们已经看到了这一点,这就是社区的层面。在社会层面上,今天我们不能停止谈论人工智能对我们民主过程的影响,人工智能和信息战争将如何改变这一切,我们无法停止谈论工作,从软件工程到卡车司机再到放射科医生,人工智能正在影响整个社会,所以所有这些都是人类的问题,数学是干净的,但人类世界是混乱的,人工智能已经从那种干净的数学C编程世界进入了混乱的人类世界。
Tom:有人曾经说过,技术很简单,但人类很复杂。你对人工智能的潜在好处和应用,比如环境健康,最感兴趣的是什么?
李飞飞:对,谢谢你提到这个,因为这是我书中的第十章。但确实是无穷无尽很难讲完的。个人而言,我在初级保健急诊部门、手术室外和门诊护理环境中花了无数小时深受启发,因为我有一个多病的父母,已经重病几十年。我照顾我的妈妈,我意识到我们的医疗系统中充满了照顾人的人,但是所有这些人,从护士到医生再到看护者,他们都没有足够的时间和帮助。因此,医疗环境中的环境智能真正源于我和斯坦福医学院的合作者之间的合作,想要利用技术提供额外的眼睛和耳朵,以帮助医生、护士和看护者确保我们的病人安全,或者他们的情况不会迅速恶化。你们中的很多人都有亲朋好友摔倒过,这是一个非常痛苦且代价高昂的伤害,尤其对老年人来说,但你怎么能预测?你怎么能提醒?你怎么能帮助他们?如何帮助我们的老年人或病人?很难让人24小时监视,但计算机和摄像头可以帮助,或者说环境智能可以帮助监测慢性阻塞性肺病患者的状况,并在氧气水平迅速变化或其他情况发生变化时提醒医生,这只是一个例子,人工智能几乎可以作为守护天使,帮助我们的看护者照顾人们。
但我们也看到在教育领域的激动人心的用例,个性化学习,显而易见,人工智能可以作为助教,帮助老师在不同的学习环境中。
Tom:你的一位前研究生Andre正在做这个吗?
李飞飞:是的,没错,我几天前刚见过他,但在农业中也有很多用例,在深度学习革命开始之前,我有一位前学生使用计算机视觉技术来识别田地里的杂草,以便保持作物更健康,我听说鲑鱼养殖者正在使用人工智能来帮助养殖鲑鱼,积极使用人工智能的用例真是数不胜数。
Tom:那么我们如何培养更多人既具备计算机背景,又是某一领域的专家,比如你的同事Daphne Color,她有机器学习背景,但她在医疗和药物发现方面也学到了很多,因为那些在计算机专业和领域专业之间都有所涉猎的人,将更能帮助识别出更多引人注目的用例。
李飞飞:这是个好观点,Tom,我深信跨学科和多学科的方法,即使你不想在交叉学科领域获得博士学位,我个人是在人工智能与计算神经科学、人工智能与计算生物学,或人工智能与政治科学的交叉点上获得的博士学位,即使你在学生生涯中没有在所有这些领域深入研究,拥抱计算和STEM领域与自己的激情领域(无论是生物、艺术、政策、化学等)结合在一起,是非常有价值的。所以对在校学生来说,如果你在考虑大学,我确实认为汤姆所说的是非常有价值的,就是要拥抱这种跨学科性。
放眼未来,人工智能是计算的新语言,我曾经说过,只要有芯片的地方,就会有或将会有人工智能,像灯泡那样小的设备都会有人工智能,像机器人和汽车那样大的设备也会有。考虑到这项技术的重要性,我确实相信我们要让我们的孩子从小开始教育,让来自各个背景、生活各个阶层的学生了解这项技术,如果不能编码,至少要知道这是什么。但最后,我还认为,即使你的兴趣不在计算、计算机编程或人工智能的技术细节上,如果你的兴趣在艺术、政治科学、法律、医学等领域,也会有你的位置,因为正是领域专家会使用人工智能来在你的领域中产生影响,所以不要害怕从你的角度去拥抱它,并利用它来做出积极的改变。
Tom:人们列出了很多潜在风险,你已经谈到了其中的一些:人们将失去工作,深度伪造技术将被用来干扰选举,我们将强化现有的偏见,有些人有更具投机性的担忧,比如工具收敛的概念。如果我们给一个人工智能系统设定一个目标函数,让它去实现某个目标,那么它可能会有一些子目标,比如想要复制自己,获得更多的计算能力。人们谈论的风险中,你认为哪个最严重?
李飞飞:是的,确实有许多风险,每种技术,尤其是强大的技术,都会造成伤害,可能会被用于伤害,即使是出于好意,也会有意外后果,我们必须面对这一点。但如果你让我作为教育者来选择一个风险,我会说,拥抱人工智能新时代最大的风险是无知。
即使是一些知识渊博的人,如果他们忽视了细微的差别,并以夸张的方式传播人工智能的消息,那对社会也是一种风险,但我们知道,如果对这项技术过于无知,我们就会错过利用它为我们带来好处的机会,如果我们对这项技术无知,就无法识别实际风险,如果我们传播无知的信息,我们也在误导公众和决策者。因此,许多问题的根源实际上在于缺乏理解,导致我们无法正确评估风险,或以夸张的方式进行传播,或者完全忽视了这些风险,这就是我的观点。
Tom:那么你认为现在有哪些例子,人们说了一些你认为完全错误的事情?
李飞飞:任何人说“人工智能是全好的”,就好像可以将这个词换成“技术是全好的,只有好处,从不造成坏处”,这是对过去的无知。我们看人类与工具的历史,每种工具都被以有害的方式使用,所以我们必须认识到,如果你的数据集有偏见,你将对公平性产生非常糟糕的影响。
如果你不知道人工智能是如何产生的,你可能会在不知情的情况下与深度伪造技术打交道,这些都不是好的情况,但还有一种观点是,这是一种绝对的危机,它将自我繁殖、复制、关闭电网等等,这也是夸大的,忽视了人工智能并不是一个抽象概念,它实际上存在于物理系统中,尽管是虚拟软件或数字程序,它依然生活在数据中心、电网和人类社会中,很多事物是相互联系和具体化的,这种夸大的假设是错误的。
Tom:其中一些提出这些更具推测性担忧的人,比如Jeffery Hinton,显然对技术有深入理解。那么你为什么认为,有些深度参与技术的人在过去几年变得更加担忧?
李飞飞:首先,我非常尊重Jeffery,我从研究生时期就认识他。实际上,去年我在多伦多与Jeffery Hinton进行了关于这个问题的公开讨论,这是他与我或与任何人就此问题进行公开交流的少数几次之一。如果你仔细听他的讲话,他确实感到担忧,他也在指出潜在风险,但他的担忧还有一层被放大的成分,我们需要将其分开,我完全尊重与Jeffery的讨论,并且同意他的观点。
不负责任地使用这项技术将导致非常严重的后果,他有他对不负责任使用的看法,而我有我自己的看法。我尊重每个人以自己的方式指出这些风险,但我也想成为一个负责任的传播者和教育者,让公众知道,驾驭和管理这项技术依然是我们人类的集体责任,这一切都掌握在我们手中,我们不应该放弃。
Tom:你谈到了治理,在推动国家研究线上政治议程方面发挥了非常重要的作用,如果你有机会给下一任总统简报,而他们问你:“李飞飞,我该怎么做?”你会给下一任总统关于美国政府在促进利益和理解、管理风险方面能做的最重要事情什么建议?
李飞飞:对,我可能会说我去年六月对拜登总统说过的话,以及今年早些时候在国情咨文中见到他的看法,我相信我们的国家需要一个非常健康的人工智能生态系统,当我说生态系统时,它包括公共部门、学术界和创业精神。我们现在称之为大型科技公司的“小科技”,而我们的国家是一个非常强大的民主国家,我们相信这个民主的价值。我相信,拥有一个健康的人工智能生态系统对我们的优势有积极的作用。
Tom:但我们能做什么来推动这一点?
李飞飞:公共投资,公共投资现在真的非常重要,现在我在私营部门兼职工作,这让我更加确信私营部门和公共部门在人工智能上的投资差距是如此巨大,比如,我在斯坦福大学的计算机视觉实验室与其他几位教师共享的实验室没有H-100芯片,也没有A100芯片,我们仍在使用6000和其他旧芯片,而大型科技公司,如你所说的,拥有数十万甚至百万个芯片。公共部门投资是创意的沃土,是花朵绽放的地方,如果没有公共部门的支持,我们今天就不会在这里,我也不会在这里。
Tom:那么Jeffery Hinton是什么时候开始研究人工神经网络的?
李飞飞:差不多也得十年了,他在卡内基梅隆大学,甚至更早。你提到的那些都是来自公共部门的例子,在接下来的三到五年,我们谈论科学发现时,会看到激动人心的成果,很多将来自公共部门,而且来自公共部门学术界的最佳成果,猜猜是什么,人就是这些成果的来源,因此,我们需要投资公共部门。
Tom:好极了,我们有一群非常聪明的听众,我相信你们会提出很多好的问题,比如,有一个问题是关于你们新公司的,问你们将如何收集足够的数据来构建世界的空间地图,以支持实时定位。你可能想要先讨论一下这个问题的前提,但显然数据是你们在空间智能领域取得进展的关键,没有数据就不可能做到,所以也许你可以谈谈这个。
李飞飞:我们现在还没有公开讨论细节,因为还没有准备好,当我们准备好时会进行讨论,我有点好奇这个人怎么会知道我们正在构建什么,这是他们的版本故事,我对此不做评论,但你是对的,人工智能是由数据驱动的,这一点非常重要,我们公司的空间智能绝对是基于像素的,因此大量的像素数据将推动这项技术的发展。
Tom:对,这里有一个来自Amy的好问题,这与您曾参与的“人人享有人工智能”项目有关,她说:“我是一名12岁的中学生,我们可以做些什么来鼓励更多女孩学习人工智能,为人工智能时代做好更好的准备?”
李飞飞:好问题,每个12岁的小孩都应该被鼓励去接受这个,不论你是女孩还是男孩,生活在乡村还是硅谷,如果你热爱它,就去拥抱它。对于Amy说的,我在12岁时也在思考,那个时候并没有人工智能,至少我不知道有人工智能,我喜欢数学,喜欢物理,今天我感激我父母和老师为我做的事情,我会对Amy和所有学生说,追随你的热情,追随你的好奇心,并且要有韧性,如果有消极的声音,就把它们排除在外,你周围有很多人,从父母到老师再到朋友,再到榜样,都在支持你,继续努力,继续前进。
Tom:除了做早餐之外,空间智能可以解决的最重要的人类问题是什么?
李飞飞:空间智能确实可以驱动很多事情,从创造到设计,你们有多少人想要一个应用程序,可以想象所有家具的重新排列,从机器人到增强现实(AR)、虚拟现实(VR),以及特定领域,比如教学、学习、医疗、工厂制造等等,这都是一种深具普遍性的横向技术,能够影响所有这些领域。
Tom:我们有一个关于小模型和AR眼镜结合的问题,你考虑过这样的事情吗?
李飞飞:我对新媒体确实感到兴奋,我们在硅谷,我相信你们中很多人熬夜购买Vision Pro,所以我实际上非常兴奋,苹果称之为空间计算,因为那时我已经思考空间智能多年,我想是的,因为空间计算需要空间智能,但眼镜这一形式对我来说很令人兴奋,小型计算或边缘计算也非常有趣,但小模型不仅对眼镜和头戴设备有用,实际上它在边缘计算方面非常强大,无论是智能设备、机器人,尤其是家用机器人,你现在可以在后备厢里携带一台服务器,所以小模型有很多应用。
Tom:我对多模态模型和智能眼镜在劳动力发展中的作用非常感兴趣,我们没有足够的电工,所以你可以想象,耳塞AI、智能眼镜可以作为学徒培训项目的一部分提供及时、适量的培训,我们能做什么,研究界能做什么,公司能做什么来解决其他语言在这一领域代表性不足的问题?
李飞飞:这是个好问题,这涉及到数据偏见等等。首先,当我说公共部门对AI的投资时,每个国家都应该在AI方面进行公共部门投资,这与当地文化、语言有关,从这个角度来看,个人研究者很重要,关注这些问题,但政府和能够部署大量资源的大型组织也很重要。英语确实占主导地位,我们应当意识到这一点,这回到我之前提到的公共部门投资,甚至在这个国家,我相信我们有许多优秀的研究者和学生在思考其他语言,但目前他们缺乏数据集和计算资源,我们需要解决这个问题。
Tom:观众中有一些哲学性的问题,“我想知道你在斯坦福大学做了哪些努力来与人文学科和社会科学的人接触,有什么例子是他们能够提供的洞见,让你作为计算机科学家感到有趣的?”
李飞飞:实际上,这是我过去五年中最有趣的部分,建立和共同运营这个研究所,确实是与整个校园接触,斯坦福大学特别有大约八个学院,从法学院、商学院、医学院到现在的可持续发展学院、人文学科、自然科学学院、工程学院,和同事们交谈,接触校园内的学生、研究人员和学者是极其有趣和启发性的。我学到了什么?与人文学科同事的交谈真正开阔了我对人类表达和创造力的理解,这意味着我们如何思考AI与深具创造力的人的关系,尤其是当ChatGPT和Sora在好莱坞作家罢工后出现时,涉及到艺术家的声音、个人版权,以及艺术家如何在拥抱这一工具的前沿。
这确实非常复杂,我没有接受过正式教育来理解这一切,他们教我思考这一点,与这个观众交流,可能是非常专业的技术人员,技术专家倾听并接触人文和社会科学家是非常重要的,而且在你自己的工作环境中,无论是法律、产品、市场营销或其他职能,因为技术并不是在真空中存在的,技术需要复杂的人类努力来使其对社会有益,以谦逊和尊重的态度去接纳对方,并给予他们应有的尊严,这是我们建立这些桥梁所能做的最基本的事情。
Tom:你认为我们在可解释和可理解的AI领域取得进展有多重要?
李飞飞:总体上这是重要的,但在这个问题上,我们需要更细致一些,例如,甚至可解释性有不同的层次,大家都知道泰诺对发烧和头痛是有效的,但给我解释一下泰诺的分子途径,事实上,即使今天,科学家也不知道所有的细节,但你不会说泰诺是一种不可解释的药物,因为围绕药物开发、监管措施和药物批准过程有足够的解释,让你和大多数公众感到信任。
另一种可解释性是,例如,特别是你从拉法叶开车过来的,这里的谷歌,如果你在谷歌地图中输入,它会给你路线选择,你可能会选择一条快四分钟的路,但老实说,这并没有向你解释从A点到B点的算法,但作为一个人类用户,你会感到在选择上有足够的可解释性。再回到医学,我们中几乎没有人能理解治疗,然而你的医生会用某种人类语言向你解释这种治疗,我举这个例子,是为了和你分享思考用例的重要性,思考可解释性的定义也很重要,而这种定义与特定用例之间的匹配是必要的。
有时我们并不需要机械分子途径级别的可解释性,有时我们需要不同类型的可解释性。因此,回答你的问题,这是重要的,但取决于用例,在不同的情况下,它的重要性各不相同。
Tom:你提到除了学习AI外,你还学习了神经科学,有些人对“AI能从神经科学中学到什么”这个问题感兴趣,卷积神经网络在某种程度上是受人类视觉系统启发的,人们研究了多巴胺奖励回路,这也是强化学习的灵感来源。还有哪些领域你认为神经科学与AI之间有潜在的合作?
李飞飞:完全正确,这个房间里的灯泡就是20瓦,因此,当我们成立斯坦福AI时,三个主要研究支柱之一就是神经科学,跨学科的合作对我们领域的进步以及两个领域的未来都是基础,我很幸运能和SG Gully、Mike Frank和Noah Goodman等同事合作,斯坦福的很多同事都在这个跨学科研究的前沿。例如幼儿的发展,年轻的孩子,尤其是在早期阶段,会进行大量好奇心驱动的学习,这如何转化为AI系统?这是一个灵感来源,我们也知道背景只是我们大脑中两个神经元之间发生的事情的一个非常简化的翻译,除了突触连接,还有许多树突连接,这实际上是非常电气化、化学化和复杂的,今天没有任何机器学习算法考虑到这些复杂而有趣的突触和神经元通信通道。
Tom:请和我一起感谢李飞飞的精彩访谈。
李飞飞:非常感谢你们两位,这次讨论非常精彩,我个人收获颇丰,公共支持确实是非常基础的,Tom,你在政府中参与了很多相关事务,我觉得如果没有这些支持,我们在这个阶段会感到困惑,因为这一切与社会影响紧密相连,你们所寻找的那位第四位参与者是在达特茅斯会议上的Nathaniel Rochester,当时他在IBM工作。我还想告诉大家,最近没有去展览的人,楼下有一台霍勒特机器,这是Herman Holert为了应对美国政府需要将1890年人口普查数据编码而建造的,由于人口增长,原有的计算方法无法及时完成普查,通过公共呼吁与私营企业的结合,他设计并建造了一台基于打孔卡的机器,这一设计是为了解决工业革命中雅克织机的图案储存问题。因此,无论是DARPA的资金支持,还是其他方面,都需要有社会的呼声,如果不是现在,我不知道何时才会有,所以你为在场的每个人提出了一些精彩的想法,我想再次感谢你们二位,请大家再一次感谢他们。
原视频:CHM Live | Fei-Fei Li's AI Journey
https://www.youtube.com/watch?v=JgQ1FJ_wow8
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI