Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

5362点击 2024-11-01 12:19

Agent-to-Sim: Learning Interactive Behavior Models from

Casual Longitudinal Videos

介绍：

https://gengshan-y.github.io/agent2sim-www/

论文：

https://arxiv.org/abs/2410.16259v1

Agent-to-Sim (ATS) 是一个创新的三维模拟系统，能够从日常视频集合中学习三维代理的交互行为模型，由 Meta Codec Avatar 实验室主导研发。

Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

与传统依赖于标记跟踪和多视角相机的方法不同，ATS 通过长时间跨度的单一环境视频观察，非侵入性地学习动物和人类代理的自然行为。

Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

该框架开发了一种从粗到细的注册方法，通过规范的三维空间跟踪代理和相机，生成完整且持久的四维表示，包括场景、代理和观察者的轨迹。ATS框架不仅能够从视频记录中转移代理到交互式行为模拟器，还能够生成与观察者互动且遵守环境约束的代理行为。

Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

ATS 框架的特点是其能够处理和学习在自然环境中捕获的广泛行为，这些行为是在代理的日常生活中非侵入性地观察到的。这种方法使得ATS能够模拟出更加真实和多样化的代理行为，例如宠物跳跃到家具上、快速穿过房间、胆怯地接近附近的用户，或者在被快速接近时逃跑等。此外，ATS框架还展示了其在不同场景和代理类型中的可扩展性，包括动物行为和日常事件。

技术解读

Agent-to-Sim 是一项前沿技术，其思路是通过分析和学习长时间跨度内捕获的单一环境中的3D代理行为，实现从现实世界到模拟环境的无缝转移。该技术特别关注于从日常纵向视频中提取代理的自然行为模式，并通过4D空间时间重建方法，将这些行为转化为可在模拟环境中重现的交互式模型。

Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

ATS 框架的处理过程涉及多个技术特点：

首先是其独特的4D空间时间重建技术，它通过一个规范的3D空间跟踪代理和相机随时间的变化，生成一个完整且持久的4D表示。这种表示不仅包括了场景和代理的轨迹，还涵盖了观察者（如持手机的人）的动态。
接着，ATS利用从4D重建中提取的感知和运动数据对，训练一个生成代理行为的模型。这个模型能够根据代理的自我感知和历史轨迹生成互动行为，从而在模拟环境中重现代理的行为。
此外，ATS框架还采用了一种新颖的从粗到细的注册方法，它利用大型图像模型作为神经定位器，以提高相机定位的准确性和效率。

ATS 技术能够从非正式、日常的视频资料中学习并生成代理的交互行为，这对于虚拟现实(VR)、增强现实(AR)内容的生成、机器人规划以及行为模仿等领域具有重要的应用前景。通过ATS，开发者和研究人员可以创建更加真实和自然的虚拟代理，这些代理能够根据用户的互动和环境变化做出响应，极大地丰富了虚拟环境的交互性和沉浸感。

论文解读

这篇论文介绍了一个名为Agent-to-Sim (ATS) 的框架，用于从非正式的纵向视频集合中学习3D代理的交互行为模型。

以下是论文的要点概述：

摘要：介绍了ATS框架，它通过长时间跨度的单一环境视频观察学习动物和人类代理的自然行为。该框架能够实现从视频记录到交互式行为模拟器的真实到模拟转移。
引言：讨论了从视觉观察中学习代理行为模型的重要性，以及与以往工作的对比，指出了从日常视频中学习行为模型的优势和挑战。
相关工作：

4D重建：讨论了从单目视频中重建时间变化的3D结构的挑战，以及以往依赖特定类别3D先验的方法。
行为预测和生成：回顾了行为预测的历史，从基于物理的模型到基于规划的模型，以及使用生成模型来表达行为的多模态性。
3D代理运动生成：探讨了现有的人类和动物运动生成方法，这些方法主要使用模拟数据或多相机捕捉的运动捕捉数据。

4.方法：

4D表示：描述了包含代理、场景和观察者的4D空间时间重建，以及如何将这种表示适应到视频集合中。
优化：介绍了一种从粗到细的多视频注册方法，用于全局对齐代理和观察者的姿势，并联合优化4D表示。
交互行为生成：讨论了如何从4D重建中提取特征，并学习一个与场景和观察者互动的代理行为模型。

5.实验：

数据集：介绍了包含代理与环境和观察者互动的数据集，以及数据集的多样性和互动模式。
4D重建：展示了4D重建的结果，包括相机注册和场景重建的质量。
交互代理行为预测：评估了模型在目标、路径和身体运动预测方面的表现，并与其他方法进行了比较。

6.结论：总结了ATS框架的主要贡献，包括从视频集合中构建持久的4D表示，以及学习与观察者互动且遵守环境约束的代理行为模型。

文章来自于“ADFeed”，作者“ADFeed”。

Agent-to-Sim：从日常视频学习并模拟三维代理的交互行为

关键词: AI , Agent-to-Sim , ATS , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md