一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)
9200点击    2026-04-21 09:25

如果把今天最热门的几个方向摆在一起看,你会发现它们其实在卡同一道坎。


做 AIGC 的人会觉得,现在的 3D 生成已经能 “做出东西”,但还很难真正进入创作流程;做 图形学和 动画的人会发现,很多自动生成结果只能看,不能动;做游戏和 VR 的人会关心,这些资产能不能直接进入交互;做仿真和具身智能的人则更在意,生成出来的对象有没有结构、能不能被控制、能不能放进一个可操作的三维世界。


这些问题背后,其实都指向同一个核心门槛:


今天很多 3D AIGC 结果,仍然只是 “静态的 3D 外壳”,而不是 “能动、能控、能进入工作流的数字资产”。


SIGGRAPH 2026 论文 AniGen: Unified S^3 Fields for Animatable 3D Asset Generation 正是在试图跨过这道门槛。它做的不是单纯把一张图变成一个 3D 模型,而是从单张图片直接生成带骨架与蒙皮权重的可动画 3D 资产


这意味着,对动画制作来说,它生成的不是摆件,而是更接近可直接驱动的角色或道具;对游戏开发来说,它离 “可进入引擎” 的资产更近;对动态创作和视频生成来说,它提供的是可以被重新摆姿态和编排动作的 3D 元素;对仿真和具身智能来说,它生成的也不只是外观,而是带有结构先验、可被进一步控制的对象。


论文来自 VAST 和香港大学,核心目标非常直接:给定单张图片,直接生成带骨架与蒙皮权重的 3D 资产,而不是先生成一个静态模型,再补一套脆弱的自动绑骨流程。


本文作者是来自香港大学博士生黄熠华,通讯作者是VAST公司首席科学家曹炎培博士和香港大学齐晓娟教授。


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


  • 论文:AniGen: Unified S^3 Fields for Animatable 3D Asset Generation
  • 会议:SIGGRAPH 2026 (TOG)
  • 项目主页:https://yihua7.github.io/AniGen-web/
  • 代码:https://github.com/VAST-AI-Research/AniGen
  • Demo:https://huggingface.co/spaces/VAST-AI/AniGen


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 海报


过去两年,AIGC 把 3D 内容生成推到了一个很热的阶段。无论是文生 3D 还是图生 3D,模型已经能生成越来越像样的几何和外观。但在真正的动画、游戏、VR、数字人和具身智能流程里,只有 “像一个 3D 模型” 还远远不够。


真正能进入生产流程的,是可动画 3D 资产。


这类资产除了几何形状本身,还需要完整的骨架结构,以及控制模型如何随骨架运动而变形的蒙皮权重。没有这两样,生成结果再精致,也更像一个静态摆件,而不是可以被驱动、编辑和复用的数字角色或道具。


现有主流方案大多采用 “先生成、再绑骨” 的串行路线。第一步,生成模型根据图片产出一个静态 3D 形状;第二步,再调用自动绑骨方法去推断骨架和蒙皮。


问题恰恰出在第二步。


自动绑骨对几何结构非常敏感,而 AIGC 生成出来的网格,往往会带着一些人眼不太在意、但对算法很致命的小问题。比如局部黏连、细节拓扑不稳定、姿态带来的结构歧义。结果就是,后处理一旦接上,骨架可能缺骨、连错,蒙皮也可能分配失真。模型看着像那么回事,真正动起来却完全不是那回事。


AniGen 的做法,是干脆不把 “形状” 和 “可动性” 拆开处理。


作者提出了一个统一表示,叫 S^3 Fields,把几何、骨架、蒙皮放在同一个共享空间里联合生成。也就是说,模型在生成几何外形的同时,也在同步生成与之匹配的骨架和蒙皮信息,而不是把 rigging 留到最后再补。


为了让这套统一表示真正可学、可生成,作者设计了两个关键模块。


第一个是置信度衰减的骨骼场。可以把它理解成,模型在学骨架的时候,不只是输出 “骨头该长在哪里”,还会显式建模 “哪些区域本来就更模糊、更容易出错”。这样做的好处是,模型不会被边界附近那些歧义位置带偏,最终长出来的骨架更干净、更稳定。


第二个是对偶蒙皮场。蒙皮权重本来很麻烦,因为不同对象的关节数差异很大,鱼、狗、人、机械臂根本不是一个复杂度。AniGen 把这件事改写成一种与关节数量解耦的特征表示,因此同一套网络就能覆盖更广的类别。


在生成流程上,它采用两阶段 flow matching。第一阶段先生成稀疏的结构脚手架,第二阶段再在这个结构基础上补全高分辨率几何和 articulation 细节。这个顺序很像先把 “骨架轮廓和组织方式” 搭出来,再往上长肉和细节。


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 方法图


从实验结果看,AniGen 的重点优势不是单纯几何分数,而是 “生成结果到底能不能真正拿去动”。论文在 ArticulationXL 数据集上,把它和 TRELLIS*+UniRig/Anymate/Puppeteer/RigAnything 等强基线做了系统比较。结果显示,AniGen 在骨架结构预测和蒙皮精度上都取得了最好结果,尤其是在更反映骨架拓扑正确性的 Gromov-Wasserstein 距离,以及对蒙皮分布更敏感的 Skin KL 指标上,领先幅度明显。


下图给出了与主流 “先生成、再绑骨” 方案的直观对比。可以看到,在骨架结构、蒙皮质量和最终动画可用性上,AniGen 的结果更稳定:


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 与基线方法对比


更有意思的是泛化能力。项目页里能看到的结果并不局限于人物或动物,还包括植物、卡通角色、机械臂等对象。鲸鱼可以游动,狗可以奔跑,人物可以摆动作,机械臂可以抓取物体,植物还能在不同状态间切换。


下面这张 in-the-wild 总览图,展示了 AniGen 从单图出发生成不同类别可动画资产的能力。可以看到,它既覆盖动物、人物和卡通角色,也覆盖植物和机械对象,并且不是只生成一个静态外形,而是同时给出骨架与可驱动结果:


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen in-the-wild 结果图


下面这个 GIF 展示了 AniGen 在多类别上的动态生成效果:


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 动态展示


如果看更具体的单案例,狗的例子能更直观地体现 “生成后可直接做动作” 这件事:


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 小狗案例动图


而且这个结果不是 “看起来像在动”,它背后有明确生成出来的骨架结构。对应的 skeleton overlay GIF 更能看出 AniGen 的输出已经具备可动画资产需要的结构信息:


再看机械臂案例,AniGen 不只是 “重建出一个机械外形”,而是生成了一个可以直接被驱动的 articulated object:


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 机械臂生成


这意味着 AniGen 想解决的不是某个垂类的小任务,而是一个更大的问题:未来的 3D 生成模型,能不能从 “只会做静态壳子”,升级为 “直接生成可交互对象”。


如果把 AniGen 放到不同领域里看,它的价值会更直观:


  • 对图形学来说,它在推动 3D 生成从静态几何走向可动画表示。
  • 对 AIGC 与动态创作来说,它让生成内容拥有后续编排动作、重设姿态和多轮编辑的空间。
  • 对动画制作来说,它缩短了从参考图到可驱动资产之间的距离。
  • 对游戏开发来说,它更接近可进入交互流程的角色和道具体系。
  • 对仿真系统来说,它提供的不只是外观,还包括更适合控制和操作的结构信息。
  • 对具身智能来说,它指向的是 “带有结构与可动性先验的 3D 世界对象”,而不是单纯视觉外壳。


毕竟很多场景真正缺的,从来不是一个会转的 3D 模型,而是一个可以被驱动、被编辑、被复用的数字角色。


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)


一张图生成「能动」的3D资产:VAST+香港大学AniGen把AIGC推向动画、游戏、仿真与具身智能 (SIGGRAPH 2026 TOG)

AniGen 在具身智能的机械手和动画角色创作方面都有巨大的实际价值


从更长的技术脉络看,AniGen 的意义可能不只是 “多做了一步 rigging”。它更像是在提示一个方向:未来的 3D 生成模型,不该只生成一个静态外壳,而应该直接生成具有结构、功能和交互能力的数字对象。对于动画制作、游戏开发、虚拟现实、具身智能乃至数字孪生来说,这类能力都是下一阶段内容自动化的重要基础。把几何、骨架、蒙皮统一建模,已经让 3D 生成离真正可用的数字内容更近了一步。


文章来自于"机器之心",作者 "机器之心"。

关键词: AI新闻 , 模型训练 , AniGen , AI 3D
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales