李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。
最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。
将世界模型装入机器人。 两周前,银河通用官宣完成5亿元战略融资。
在自动驾驶领域,世界模型的应用尤为引人注目。然而,现有数据集在视频多样性和行为复杂性方面的不足,限制了世界模型潜力的全面发挥。为了解决这一瓶颈,中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。
作为计算机视觉领域的开拓者,李飞飞在人工智能革命中扮演了重要角色。她的新回忆录《我所看到的世界》(The Worlds I See)详细讲述了她从学术到技术突破的旅程,以及如何在人工智能的最前沿找到自己的使命。
最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。
AGI 啥时候真来,咱还是得说句,再等等。 开了眼了,上周编辑部还在说下半年感觉 AI 领域没啥大活儿了,结果没过几天就发现话放早了。 宁猜怎么着,本来以为 AI 还停留在输入文字,然后出图出视频的这些程度上,结果这两天突然有几个 AI 公司,都开始宣布人家可以生成世界了。
当前构建数字世界有三条路线:OpenAI的Sora追求视觉真实,谷歌的Genie 2注重实时交互,World Labs专注空间准确。这三条路线各有优势,也各有无法在短期内解决的问题。