ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
深度|什么是李飞飞的AI“世界模型”,它们为什么重要?
3614点击    2024-10-29 13:12

图片来源:runway


世界模型,也被称为世界模拟器,正被一些人视为人工智能的下一个重大突破。


人工智能先驱李飞飞的世界实验室已筹集 2.3 亿美元用于构建“大型世界模型”,而 DeepMind 聘请了 OpenAI 视频生成器的创始人之一 Sora 来开发“世界模拟器”。


但这些东西到底是什么呢?


世界模型受到人类自然发展出的世界心理模型的启发。我们的脑袋将来自感官的抽象表征转化为对周围世界的更具体理解,产生了我们称之为“模型”的东西,这在人工智能采用这个词之前就已经存在。我们的大脑基于这些模型所做的预测影响了我们对世界的感知。


一篇由人工智能研究者大卫·哈和尤尔根·施密特胡伯撰写的论文举了一个棒球击球手的例子。击球手只有毫秒的时间来决定如何挥动球棒——这比视觉信号到达大脑的时间还要短。他们能够击中每小时 100 英里的快速球的原因是,他们可以本能地预测球的去向,哈和施密特胡伯说。


“对于职业球员来说,这一切都是潜意识中发生的,”这对研究者写道。“他们的肌肉会在正确的时间和地点本能地挥动球棒,符合他们内心模型的预测。他们可以迅速根据对未来的预测采取行动,而无需有意识地推演可能的未来情景来制定计划。”


正是这些世界模型的潜意识推理方面被一些人认为是人类水平智能的先决条件。


建模世界


尽管这个概念已经存在了几十年,但世界模型最近因其在生成视频领域的有前景应用而受到关注。


大多数,甚至所有,AI 生成的视频都进入了诡异谷的领域。观看它们足够长的时间,就会发生一些奇怪的事情,比如四肢扭曲并相互融合。


虽然经过多年视频训练的生成模型可能准确预测篮球会反弹,但它实际上并不知道原因——就像语言模型并不真正理解单词和短语背后的概念一样。但是,一个即使对篮球为何如此反弹有基本理解的世界模型,将更擅长展示篮球的这一行为。


为了实现这种洞察,世界模型在各种数据上进行训练,包括照片、音频、视频和文本,目的是创建对世界运作方式的内部表征,以及推理行动后果的能力。


“观众期望他们所观看的世界与他们的现实以类似的方式运作,”马什拉博夫说。“如果一根羽毛以铁砧的重量下落,或者一个保龄球飞向数百英尺的高空,这会让人感到震惊,并使观众脱离当下。通过强大的世界模型,而不是让创作者定义每个物体的运动方式——这既繁琐又耗时,且效率低下——模型将会理解这一点。”


但更好的视频生成只是世界模型的冰山一角。包括 Meta 首席人工智能科学家 Yann LeCun 在内的研究人员表示,这些模型将来可能用于数字和物理领域的复杂预测和规划。


在一次演讲中,LeCun 描述了世界模型如何通过推理帮助实现预期目标。一个具有“世界”基本表示的模型(例如,一个脏房间的视频),在给定一个目标(一个干净的房间)时,可以提出一系列行动来实现该目标(部署吸尘器清扫、洗碗、倒垃圾),这并不是因为它观察到的模式,而是因为它在更深层次上知道如何从脏到干净。


“我们需要能够理解世界的机器;[机器]能够记住事物,具有直觉和常识——能够像人类一样进行推理和规划的东西,”LeCun 说。“尽管你可能听到了一些最热情的人所说的,当前的人工智能系统并不具备这些能力。”


尽管 LeCun 估计我们距离他设想的世界模型至少还有十年的时间,但今天的世界模型作为基础物理模拟器显示出潜力。


OpenAI 在博客中提到,Sora 被认为是一个世界模型,可以模拟像画家在画布上留下笔触的动作。像 Sora 这样的模型——以及 Sora 本身——也可以有效地模拟视频游戏。例如,Sora 可以渲染一个类似 Minecraft 的用户界面和游戏世界。


未来的世界模型可能能够按需生成 3D 世界,用于游戏、虚拟摄影等,World Labs 的联合创始人贾斯廷·约翰逊在一集a16z 播客中表示。


“我们已经具备创建虚拟互动世界的能力,但这需要数亿美元的成本和大量的开发时间,”约翰逊说。“[世界模型]将让你不仅能获得一张图像或一个片段,而是一个完全模拟、充满活力且互动的 3D 世界。”


高门槛


尽管这个概念很吸引人,但许多技术挑战阻碍了它的发展。


训练和运行世界模型需要巨大的计算能力,甚至比目前生成模型所使用的计算量还要大。虽然一些最新的语言模型可以在现代智能手机上运行,但 Sora(可以说是一个早期的世界模型)在训练和运行时需要数千个 GPU,特别是如果它们的使用变得普遍的话。


世界模型,像所有人工智能模型一样,也会幻觉——并内化其训练数据中的偏见。例如,一个主要基于欧洲城市阳光天气视频训练的世界模型,可能难以理解或描绘韩国城市的雪天情况,或者简单地错误地做到这一点。


Mashrabov 表示,训练数据的普遍缺乏可能会加剧这些问题。


“我们看到模型在某种类型或种族的人群中受到很大限制,”他说。“世界模型的训练数据必须足够广泛,以涵盖多样化的场景,但也必须高度具体,以便人工智能能够深入理解这些场景的细微差别。”


在最近的一篇帖子中,人工智能初创公司 Runway 的首席执行官 Cristóbal Valenzuela 表示,数据和工程问题阻碍了今天的模型准确捕捉世界居民(例如人类和动物)的行为。“模型需要生成环境的一致地图,”他说,“以及在这些环境中导航和互动的能力。”


如果所有主要障碍都被克服,Mashrabov 相信,世界模型可以“更稳健地”将人工智能与现实世界连接起来——这将导致不仅在虚拟世界生成方面的突破,还包括机器人技术和人工智能决策。


它们还可以产生更强大的机器人。


今天的机器人在能力上受到限制,因为它们对周围的世界(或自己的身体)没有意识。马什拉博夫说,世界模型可以赋予它们这种意识——至少在某种程度上。


“有了先进的世界模型,人工智能可以对其所处的任何场景发展出个人理解,”他说,“并开始推理出可能的解决方案。”


文章来自于“Z Potentials”,作者“Grace Bo”。