作为计算机视觉领域的开拓者,李飞飞在人工智能革命中扮演了重要角色。她的新回忆录《我所看到的世界》(The Worlds I See)详细讲述了她从学术到技术突破的旅程,以及如何在人工智能的最前沿找到自己的使命。
现年47岁的李飞飞是斯坦福人类中心人工智能研究院(HAI)的联合创始主任,该研究院以推动人工智能技术改善人类生活为目标。此外,她还是非营利组织AI4ALL的创始人之一,致力于增加人工智能领域开发者的多样性。正是这位被誉为“人工智能教母”的学者,推动了从大语言模型到大世界模型的变革,将人工智能带向了一个新的维度。
• 从大语言模型到大世界模型,AI正迈向理解和互动真实世界的新高度,重塑技术与人类的关系。
• 人工智能不仅要强大,还需改善人类生活,从医疗到教育再到环境保护,实现全面助益。
• 大世界模型的出现为技术赋能更多领域,同时也呼唤伦理和社会责任,以确保AI的公平性与可持续性。
在人类语言中,视觉相关的谚语比比皆是,这些谚语之所以广为流传,是因为视觉在人类生活中扮演着至关重要的角色。然而,视觉并非生物与生俱来的能力。大约在5.4亿年前,所有生物都生活在水下,没有视觉。三叶虫的出现标志着动物首次能够感知阳光,这一能力的出现引发了一场生物界的革命。在随后的1000万至1500万年里,视觉能力的出现催生了“寒武纪大爆发”,许多现代动物的祖先在这一时期出现。
李飞飞在《经济学人》发表的文章中提到,我们正在经历一场现代版的人工智能寒武纪大爆发。人类经过数亿年进化获得的能力,在计算机上仅用几十年就得以实现。这场革命的最大受益者将是全人类。
生成式人工智能的革命以大语言模型为起点,例如ChatGPT,这些模型通过模仿人类的语言智能开辟了全新的技术领域。然而,真正的核心在于视觉能力,或李飞飞所称的“空间智能”。李飞飞认为,“语言固然重要,但对人类而言,理解和互动世界的能力,很大程度上源于我们的视觉。”
她进一步阐述:“视觉的一个基本要素是物体识别,我们从教会计算机这一技能开始。这并非易事。例如,一只猫的三维形态可以根据不同的观察角度、姿势和背景,以无数种方式呈现为二维图像。计算机要识别图片中的猫,需要像孩子一样积累大量的信息。”
直到2000年代中期,三个关键要素的结合才使得这一目标成为可能。卷积神经网络(CNN)这种算法已经存在了几十年,但直到那时才遇到了现代图形处理单元(GPU)的强大计算能力和“大数据”的兴起——即来自互联网、数码相机等的数十亿张图片。
李飞飞的实验室为这一结合提供了“大数据”要素。2007年,他们启动了ImageNet项目,创建了一个包含1500万张标注图片、涵盖2.2万个物体类别的数据库。随后,他们和其他研究者使用这些图片及其对应的文本标签来训练神经网络模型,使其能够用简单的句子描述之前从未见过的照片。基于ImageNet数据库创建的图像识别系统的快速发展,意外地引发了现代AI的热潮。
近年来,大语言模型(LLMs)迅速改变了我们与信息交互的方式。从GPT-3到GPT-4,这些模型通过处理海量文本数据,展现了强大的语言生成和理解能力。在内容创作、翻译、客户服务等领域,LLMs无疑成为了一种革命性技术。然而,它们的局限性也逐渐显现——将世界简化为文字语境的能力,始终无法完全反映现实的复杂性。
为了突破这种局限,AI开始融入多模态数据,即整合图像和音频等信息,扩展其感知范围。这种进化在工具如DALL-E和CLIP中得以体现——它们不仅能生成图像,还能理解视觉信息。然而,这些技术仍然局限在二维的静态世界中,难以捕捉真实场景中的动态与深层联系。
李飞飞提出人工智能的未来方向将会是大世界模型(Large World Models, LWMs)。与语言相比,空间智能对理解和互动世界更为重要。视觉和空间感知是人类生存与发展的核心能力,而人工智能要达到真正的认知水平,必须能跨越二维,进入三维甚至多维的世界。
大世界模型(LWMs)涵盖我们物理和数字现实的整个范围。LWMs将处理来自各种来源(如物联网设备、传感器、摄像头等)的现实数据,从而以类似人类感知和认知的方式理解并与世界互动。
“应用场景无限广阔。想象一下,能够在普通家庭中导航并照顾老年人的机器人;为外科医生提供不知疲倦额外双手的协作工具;或者用于模拟、培训与教育的尖端技术。这是真正以人为中心的人工智能,而空间智能是它的下一片前沿。”李飞飞这样写道。
在她看来,大世界模型不仅是技术发展的蓝图,更是实现人类与技术深度融合的路径。通过LWMs,人工智能将不再只是一个工具,而是一个理解世界、服务社会的伙伴,“我们需要的不仅是看懂世界的AI,而是能够与世界互动的AI。” 这一愿景不仅指向技术的跃迁,也为人类的未来描绘了一幅充满希望的图景。
李飞飞的成功并非偶然。她从小受到母亲的支持,无论是克服移民后的经济困境,还是在普林斯顿大学发现对人工智能的兴趣,她始终以好奇心和毅力为驱动力。
然而,更深刻的影响来自于她对家庭的责任。她的母亲是一名心脏病患者,长年的看护经历让她认识到人类护理工作的复杂性和局限性。“照顾我母亲让我意识到,无论是医生、护士,还是我自己,都没有足够的‘眼睛’去持续关注她的健康。”这种亲身经历促使她思考,人工智能是否可以成为人类护理者的辅助工具。
在斯坦福大学的实验室中,她的团队致力于开发非侵入式智能摄像头和传感器,通过AI技术实现实时健康监测。例如,她的团队设计了能够预测老年人跌倒风险的系统,以及用于监测心脏病患者状况的工具。这些技术并非试图取代人类护理,而是帮助填补医疗资源的不足,减轻家庭和社会的负担。
除了在医疗领域,大世界模型(LWMs)在城市规划、教育培训和环境保护领域展现出颠覆性的潜力。在城市规划中,它们分析交通、能源和环境数据,帮助规划者优化决策,推动更可持续的城市发展。教育领域则因其提供个性化学习和逼真模拟培训体验而获益,例如医学和航空培训中技能提升的模拟应用。同时,LWMs还能通过卫星和传感器数据监测气候变化,预测灾害并优化资源管理,指导农业用水和森林保护等可持续实践。
另外,李飞飞的研究和倡导强调,人工智能并非简单的数学模型,而是一种深刻影响社会的工具。技术的设计和应用必须考虑到社会背景,尤其是偏见和不平等问题。以ImageNet为例,尽管这一项目对AI发展意义重大,但也因为使用了带有种族、性别和社会偏见的词汇而引发争议。对此,李飞飞并未回避,而是坦然面对批评,并在2017年对ImageNet的数据进行去偏见化处理。她坦言:“科学的过程是集体的,需要不断接受批评和改进。这是科学进步的必然途径。”
从科学研究到社会责任,从技术创新到人文关怀,李飞飞的实践为人工智能提供了一种全新的发展路径。她坚信,AI的真正意义在于服务人类,而非单纯追求技术极限。她的努力不仅是一次次技术上的突破,更是为这个快速变化的世界注入了更多的温度和思考。正如她在采访中所说:“人工智能的未来不仅仅是技术的事,它关乎我们每一个人。”
从大语言模型到大世界模型,人工智能正在经历从理解文本到理解世界的跃迁。大世界模型为人们提供了一个全新视角,去探索人类与机器如何协作,去重塑一个更加智能、可持续的世界。这一步,既是技术的跨越,更是人类面向未来的坚定步伐。
文章来自于微信公众号“知了x FUTURE”,作者“ 知了君”