
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。
近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。
我们先来回顾一下近期相关事件: 6 月 18 日,Midjourney 发布首个 AI 视频生成模型 V1,标志其从静态图像创作向动态多媒体内容生产转型。V1 支持上传或用其他模型生成图像来生成视频片段,但有无法生成音频、时长限制等不足。Midjourney 透露长期目标是将多种技术融合为"世界模型",使用户能在动态生成的虚拟环境中自由探索。
一个真实世界模拟器。
医学世界模型(MeWM)是一种创新的AI系统,能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像,可以帮助医生在术前评估治疗效果,优化治疗方案,显著提升临床决策的准确性,为精准医疗提供了有力支持。
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。
让网页智能体自演进突破性能天花板!
越通用,就越World Models。 我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。
三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。
刚刚,LeCun竟然亲自出镜,重磅讲解了V-JEPA 2!就在外界猜测他已被边缘化之际,这位AI老将用一支视频回应了质疑:要坚定不移做世界模型!这位20年孤勇者押注的方向,是将引领AI的下一个潮流,还是走上了歧路?
就在刚刚,Meta 又有新的动作,推出基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2)。其能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。