CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

7466点击 2025-03-22 16:08

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：

人体多样性、姿势复杂性、数据稀缺性等等。

终于，近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队，提出一个名为 IDOL 的全新解决方案，高分拿下 2025 CVPR。

项目主页目前访问次数已超 2500+ 次，且是可商用的 MIT 开源协议，备受业界瞩目。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

图 1 IDOL 速览

为什么 IDOL 这么受欢迎？因为它为单图 3D 人体重建问题提供了一种全新的高效解决方案。

该模型不仅能够在单 GPU 上以秒级速度生成高分辨率的逼真 3D 人体，还具备实时渲染、直接动画化与编辑的能力，

为 VR/AR、虚拟数字人以及相关领域的应用提供了全新思路。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

论文标题：IDOL: Instant Photorealistic 3D Human Creation from a Single Image

论文地址：https://arxiv.org/pdf/2412.14963

项目主页：https://yiyuzhuang.github.io/IDOL

该工作已开源：https://github.com/yiyuzhuang/IDOL（开源协议为 MIT，可商用）

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

IDOL demo video

单图重建人体，为什么这么难？

从单幅图像重建高质量且可驱动的人体模型是一项极具挑战性的任务。这一挑战主要源于人体姿态和衣物拓扑外观的多样性，以及缺乏大规模高质量的训练数据。

当前解决这一问题的方案通常面临以下困难：

优化时间长：基于扩散模型的优化过程耗时较长，通常需要数分钟甚至数小时。

依赖准确的 SMPL 参数估计：采用参数化人体模型作为拓扑先验，依赖精确的 SMPL-X 参数估计，且迭代优化时间较长。

泛化性不足：处理大姿态、大侧面视角以及宽松衣物等挑战性样本时，泛化能力不足。

缺乏真实感：重建结果常常出现卡通化或过饱和的现象，且对不可见区域的补充往往不够自然。

动画化困难：许多重建方法未充分考虑后续的驱动需求，需额外的骨骼绑定（rigging）处理。且表达方式的限制使其难以泛化到新姿态。

编辑能力受限：生成的 3D 模型往往难以直接进行外观修改，需要额外的 UV 展开等处理。

IDOL 为什么有效？

作者提出了一种高效且可扩展的重建框架，通过训练一个简单的前馈模型（IDOL），实现了即时且可泛化的真实感 3D 人体重建。

大规模数据集 HuGe100K

作者通过微调构建了一个能够生成高视点一致性的多视点图像生成网络（MVChamp），并创建了 HuGe100K 数据集——一个以人为中心的大规模生成数据集。

该数据集包含超过 240 万张高分辨率（896×640）的人体多视图图像，共计 100K 个（10 万组）样本。

每组图像通过一个可控姿势的图像到多视角生成模型生成，共包含 24 个视角帧。

数据集涵盖了多样化的个体特征（包括不同年龄、性别、体型、服饰和场景）为模型训练提供了充足的样本，从而显著提升了模型在各种复杂条件下的重建能力。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

图 2 构建 HuGe100K 数据集的路线图

前馈式 Transformer 重建模型 IDOL

基于此数据集，我们训练了一个预训练的编码器和一个基于 Transformer 的骨干网络，能够在 1 秒内实现快速重建。

该模型能够直接从单张输入图像中预测出人体在统一空间下的 3D 高斯表示。

通过将人体姿势、体型、服装几何结构与纹理进行解耦，模型不仅能生成高保真 3D 人体，

还能实现无需后处理的直接动画化，为后续的形状与纹理编辑提供了便利。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

图 3 IDOL 的技术路线图

方法流程与技术细节，如图 3：

1. 数据集构建流程

文本提示与图像生成：利用先进的文本到图像生成模型（如 Flux），设计描述性提示语，

确保在「区域、服饰、体型、年龄、性别」等维度上实现均衡采样，

从而生成 10 万张高质量全身人体图像（经过人工筛选，保留 90K 张合成图像，并融合 10K 张真实图像）。

多视角图像生成：基于生成的全身图像，通过训练多视角视频生成模型（MVChamp），再结合 SMPL-X 人体模板进行姿态拟合，

获得 24 个均匀分布的视角图像，确保数据在 3D 一致性上的准确性。

2. 模型架构

高分辨率编码器：采用预训练的人体基础模型 Sapiens，对 1024×1024 高分辨率图像进行特征提取，保留图像中的细粒度信息。

UV 对齐 Transformer：通过学习的 UV Token 与图像特征进行融合，将不规则的输入图像映射到规则的 2D UV 空间中，

此空间由 SMPL-X 模型定义，能够提供丰富的几何和语义先验。

UV 解码器：将融合后的特征重构成 3D 高斯属性图（包括位置偏移、旋转、尺度、颜色及不透明度），从而得到用于重建人体的高斯表示。

动画与渲染：利用线性混合蒙皮（LBS）技术，根据预定义的关节运动，对高斯表示进行前向变换，实现人体在不同姿态下的动画化。

3. 训练目标与损失函数

模型采用多视角图像监督，利用均方误差（MSE）和基于 VGG 网络的感知损失共同优化。

这样的组合既保证了重建图像在像素级别的准确性，又能提高整体的感知质量，使生成的人体纹理更为自然、细腻。

本方法的优势：高效与实时性

IDOL 模型经过优化后，在单个 GPU 上仅需不到 1 秒即可重建 1K 分辨率的逼真 3D 人体，极大地提升了实用性和应用场景的广泛性。该方法具有以下优势：

1 秒内完成高质量 3D 角色重建；

统一的 UV 表达与大规模数据集支撑，泛化性强；

可驱动性，无需额外绑骨；

支持形变与纹理编辑；

基于 3DGS 的表达，支持实时渲染。

定量看 IDOL 怎么样？

IDOL 与其他方法的对比

IDOL 相较传统 3D 建模方法实现多重突破：自研 10 万级多视角数据集 HuGe100K（传统方法仅依赖少量扫描数据），显著提升模型泛化能力；

创新性融合 SMPL-X 人体拓扑与 UV 展开的高斯溅射属性（替代传统体素/隐式场），实现解剖学精准建模；

1 秒级实时重建（传统需数小时）且支持线性蒙皮自动驱动动画（无需手动 RIGGING），更具备形变、换装等灵活编辑特性。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

表 1 IDOL 与传统方法对比一览

HuGe100K 与其他数据集的对比

通过对模型中各关键组件（如 Sapiens 编码器、HuGe100K 数据集）的逐一剔除测试，

验证了各模块对整体性能的重要贡献，证明了数据集规模与高分辨率特征提取对高质量重建不可或缺。

与现有数据集相比，HUGE100K 以 100K 个体数量（远超同类最高 4500 个 ID）和超 2.4M 帧数的规模，成为目前全球最大、多样性最丰富的 3D 人体数据集。

多样性突破：覆盖 10 万级体型与姿态，解决模型泛化瓶颈；

动态建模：百万级多视角帧包含多样化姿态；

准确动作标注：集成准确的 SMPL-X 参数，无缝适配主流 3D 工具链。

为单图重建、数字人驱动提供工业化级数据引擎，填补了高多样性、大规模动态人体数据的空白。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

表 2 HuGe 100K 数据集与其他数据集对比

重建质量对比

IDOL 在与现有方法（如基于迭代优化的 GTA、SIFU 等）对比中，IDOL 在 MSE、PSNR 和 LPIPS 等指标上均取得显著优势，

证明了其在重建精度和细节保留上的优越性。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

表 3 对比实验及消融实验指标

实验验证了 IDOL 在不同场景和姿态下均能生成细节丰富、纹理一致的 3D 人体。

无论是复杂服饰、特殊角度拍摄，还是不同体型的人体重建，IDOL 均表现出极好的泛化能力和鲁棒性。

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

图 4 IDOL 与其他方法效果对比

IDOL 未来能做什么？

IDOL 方法不仅在技术上取得了显著突破，其应用前景也十分广阔。其开源协议 MIT 自由可商用，欢迎大家随意搭建到自己的应用中。

利用 IDOL 生成的 3D 人体，用户可以直接进行形状和纹理编辑，例如调整服装图案或改变体型参数。

同时，结合动画技术，该模型还可以实现视频中的身份替换等应用，展现出极高的实用价值。

虚拟现实与增强现实：

即时生成真实感 3D 人体模型为 VR/AR 应用提供了新的交互方式，可以实现实时虚拟形象替换、数字孪生等创新应用场景。

数字娱乐与游戏开发：

通过单图重建，游戏开发者可以快速生成高质量角色模型，大幅降低建模成本，加速内容创作流程，从而推动数字娱乐产业的发展。

虚拟试衣与时尚产业：

在电商和虚拟试衣领域，利用 IDOL 技术可以实现用户上传单张照片后即刻生成 3D 人体模型，为消费者提供个性化试衣、定制服务，提升用户体验。

这篇论文通过创新性的单图重建思路，实现了从单张 2D 图像瞬时生成高质量 3D 人体模型的目标。

其核心在于将视频模型先验、人体先验、隐式表示与可微渲染技术紧密结合，构建了一个端到端可微分的优化框架。

重构了传统单目人体重建的管线（图片→3D→绑骨→驱动），极大的提高了泛化性与实用性。

实验结果证明，IDOL 在重建精度、纹理细节和实时性方面均表现出色，展现了广泛的应用前景。

未来，随着技术的不断演进和数据规模的进一步扩大，该方法有望在 VR/AR、游戏、时尚等领域引领一场 3D 数字内容创作的革新，

为实际应用提供更加高效、真实的解决方案。

文章来自于微信公众号“机器之心”，作者：机器之心

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

关键词: AI , AI 3D , IDOL , AI数字人

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。
项目地址：https://github.com/black-forest-labs/flux
在线使用：https://fluximg.com/zh

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales