刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果
7441点击    2024-12-19 16:29

AI视频生成这就过时了吗?


刚刚,最先进的生成式物理引擎Genesis发布,一句话就可以生成完整精确的模拟物理世界。


一滴水滴落到一个啤酒瓶上,然后沿着瓶子表面慢慢滑落


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


生成结果可不仅是一个视频,其中还包含物体运动的各种参数。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


接下来可以分为三个视角,同时追踪模拟水滴的运动……


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


对于人物动作,也可以遵循提示词精确模拟。


一个手里拿着棍子的微型悟空在桌子表面冲刺3秒钟,然后跳到空中,并在着陆时向下摆动右臂。


摄像机从他的面部特写开始,然后稳步跟随角色,同时逐渐缩小。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


当猴子跳到空中时,在跳跃的最高点,动作会暂停几秒钟……摄像机围绕角色旋转 360 度,然后缓慢上升,然后动作继续。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


这是一项涉及20多个组织,为期24个月的大规模合作研究:


学术界,有清华、北大、港大、CMU、马里兰、哥伦比亚、斯坦福、MIT……说是学术圈半壁江山都参与了也不为过。


产业界,也有英伟达、太极图形,以及MIT-IBM Watson AI Lab这样的联合实验室助阵。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


OpenAI在2月初次演示Sora时,曾称它是“世界的模拟器”。


相比之下,Genesis不仅物理模拟更精确,还同时有更多能力:


  • 它是一个从头开始重建的通用物理引擎,能够模拟各种材料和物理现象。
  • 它是一个轻量级、超快速、Python化和用户友好的机器人仿真平台。
  • 它是一个强大而快速的照片级写实渲染系统。
  • 它是一个生成式数据引擎,可将用户提示的自然语言描述转换为各种数据模式。


一句话总结:Genesis是一个全面的物理模拟平台,专为通用机器人、具身AI和物理AI应用而设计。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


共同一作、CMU博士生周衔详细介绍了Genesis的各种能力,迅速引起业界轰动。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


其中大家格外关注的一点是生成速度。


它提供的模拟速度比现实世界快约430000倍,并且只需26秒即可在单个RTX4090上训练能转移到真实机器人的运动策略。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


据周衔介绍,Genesis的物理引擎用纯Python代码开发,同时比现有的GPU加速堆栈(如英伟达Isaac Gym和开源的MJX)快10-80倍。


同时,速度的提高不会影响仿真精度。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


目前,团队正在开源底层物理引擎和模拟平台,对生成式框架的访问将在不久的将来逐步推出。


不得不说,从一句话生成视频到一句话生成物理世界,2024年的进展实在是太快了。


生成4D物理世界


Genesis由从头开始的通用物理引擎提供支持,将各种物理求解器及其耦合集成到统一的框架中。该核心物理引擎通过上层运行的生成Agent框架进一步增强,旨在为机器人及其他领域实现完全自动化的数据生成,包括以下模态:


  • 物理准确且空间一致的视频
  • 摄像机运动和参数
  • 人类和动物角色的动作
  • 机器人操作和运动策略,可部署到现实世界
  • 完全交互式 3D 场景
  • 开放世界铰接式物体生成
  • 语音音频、面部动作和表情


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


角色运动


关于角色运动,除了开头展示的猴子,作者还一口气放出了三个不同风格角色的运动场景。


一位日本武士正在表演拳击。


一名罗马士兵像僵尸一样向前走。


一名中国风的战士表演江南Style舞蹈。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


机器人策略


除了角色的运动,Genesis还可以自主提出机器人任务、设计环境、编写奖励函数,并最终自动生成机器人策略。


移动式franka机械臂将地板上的所有物品都扔进篮子里。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


同时支持Sim2Real,把在模拟环境训练好的策略转移到真实硬件机器人中。


一个宇树H1-2人形机器人向前走。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


四足机器狗双重后空翻


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


很可惜还有一个人形机器人单脚跳跃只有模拟演示,因为团队的机器人坏掉了……


宇树H1人形机器人执行单脚跳跃。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


另外除了机器人,无人机编队也可以模拟,并呈现出正确的数量关系。


由24(4x6)架无人机组成的机队一起从地面起飞并一起进行翻转。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


3D & 全互动场景生成


一个带有客厅(包括用餐空间)、洗手间、书房和卧室的家居室内场景。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


互动实体俄罗斯方块游戏。

00:40

刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


开放世界铰接式物体


生成开放世界铰接式物体的mesh资产,质量超越了人工注释,更多详细信息将随之后的论文一起公开。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


软体机器人


不只是各种刚性物体,Genesis针对软性的机器人也能够实现逼真的模拟。


蠕虫。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


柔软的抓手操纵盒子并拿起笔帽。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


面部动画和语音


Genesis还能够处理面部动作和表情的生成:


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


同时还能向其中添加语音,并在面部表情不断变化的同时,保持口型与说话内容的匹配:


文本“Genesis是一个为通用机器人/嵌入式人工智能/物理人工智能应用而设计的物理平台。”对应的面部运动和语音,表情从中性过渡到愤怒,再到开心。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


代码已开源,pip install


目前Genesis代码已开源,可以直接pip install genesis-world安装。


开源代码发布仅几个小时,也迅速在GitHub上揽获1.6k star。


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果


当前版本具体特性如下


  • 可在不同的系统(Linux、MacOS、Windows)和不同的计算后端(CPU、Nvidia GPU、AMD GPU、Apple Metal)上原生运行。
  • 统一的仿真框架中集成了各种物理求解器:刚体、MPM、SPH、FEM、PBD、稳定流体。
  • 支持刚性和铰接体、各种类型的液体、气体现象、可变形对象、薄壳对象和颗粒材料的仿真(和耦合)
  • 支持多种机器人:机械臂、腿式机器人、无人机、软体机器人等,并广泛支持加载不同的文件类型:MJCF (.xml)、URDF、.obj、.glb、.ply、.stl 等
  • 支持基于原生光线追踪的渲染
  • Genesis旨在与可微仿真完全兼容。目前,MPM求解器和Tool求解器是可微的,并且很快将添加其他求解器的可微性(从刚体仿真开始)
  • Genesis包含一个基于物理且可微分的触觉传感器仿真模块,将很快集成到公开版本中(预计在 0.2.0 版本)


另外GitHub项目页面介绍,Genesis的目标是构建一个完全透明、用户友好的生态系统,来自机器人和计算机图形学的贡献者可以聚集在一起,共同创建一个高效、逼真(物理和视觉)的虚拟世界,用于机器人研究及其他领域。


此外,Genesis相关论文已进入提交阶段,将于稍后公开。


目前更多细节可参考官方文档。


GitHub:


https://github.com/Genesis-Embodied-AI/Genesis


项目主页:


https://genesis-embodied-ai.github.io


文档:


https://genesis-world.readthedocs.io


参考链接:


[1]https://x.com/zhou_xian_/status/1869511650782658846


文章来自微信公众号“量子位”,作者“梦晨”


刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0