面向3D生成,来自VAST和清华大学的自动绑骨框架开源了!
3D内容创作领域正经历前所未有的爆发,无论是成熟的传统工作流,还是以VAST(Tripo)为代表的AI驱动生成工具的飞速发展,都体现了市场对高质量3D资产需求的日益激增。
然而,一个关键的生产瓶颈始终存在:骨骼绑定(Rigging)——
将静态的3D模型转化为具有骨骼和蒙皮权重、可供动画驱动的角色,依然是一个复杂、耗时且通常需要大量专业知识和手动操作的过程。
现有的自动化解决方案虽能部分缓解问题,但往往存在局限。比如,基于模板的方法在预定义的结构(如标准人形)内表现出色,但面对当今被创造出来的模型的多样性时则显得捉襟见肘。无模板方法虽然灵活性更高,却常常难以生成拓扑结构有效的骨骼,或需要复杂的后处理,限制了其实际应用价值。
今天,VAST联合清华大学开源UniRig:一个旨在克服上述局限性的全新统一自动化骨骼绑定框架。
在论文《One Model to Rig Them All:Diverse Skeleton Rigging with UniRig》,研究团队提到,UniRig提出了一个强大的统一模型,能够为前所未有、种类繁多的3D模型生成高质量的绑定数据,涵盖人类、动物、复杂的幻想角色乃至无机结构。
这还不是VAST此番开源的全部。同时,他们还开源了针对任意三维模型生成完整可编辑部件的HoloPart。
UniRig的核心在于借鉴了驱动语言和图像生成领域进步的大型自回归模型的力量。
但UniRig预测的不是像素或文字,而是3D骨骼的结构——逐个关节地进行预测。这种序列化的预测过程是确保生成拓扑结构有效骨骼的关键。
实现这一目标的关键创新是骨骼树 Tokenization (Skeleton Tree Tokenization) 方法。
将具有复杂关节相互依赖关系的层级化骨骼结构,表示为适合Transformer处理的线性序列并非易事。UniRig的方案高效地编码了:
这种优化的Tokenization方案,与朴素方法相比,序列长度减少约30%,使得基于OPT架构的自回归模型能够有效地学习骨骼结构的内在模式,并以形状编码器处理后的输入模型几何信息作为条件。
在预测出有效的骨骼后,UniRig采用骨骼-表面交叉注意力 (Bone-Point Cross Attention)机制来预测每个顶点的蒙皮权重。该模块有效地捕捉了每根骨骼对其周围模型表面的复杂影响,融合了来自模型和骨骼的几何特征,并通过关键的测地线距离信息增强了空间感知能力。
此外,UniRig还能预测骨骼特定属性(如弹簧骨骼的刚度和重力影响),使得基于学习参数的、更符合物理规律的次级运动成为可能。研究团队在训练中通过可微分的物理模拟对此进行了评估,以增强最终结果的真实感。
强大的模型离不开高质量数据的支撑。为了训练UniRig以获得广泛的适用性,研究团队还整理构建了Rig-XL——一个全新的、包含超过14,000个多样化已绑定3D模型的大规模数据集。
Rig-XL源自Objaverse-XL等资源并经过精心清洗,涵盖多个类别(双足、四足、鸟类、昆虫、静态物体等),为训练一个真正具备泛化能力的绑定模型提供了必要的规模和多样性。研究团队还利用VRoid数据集进一步优化模型在处理包含弹簧骨骼的精细动漫风格角色上的性能。
UniRig 显著提升了自动绑定技术的现有水平:
3D内容生产面临的另一个关键痛点,是三维模型的部件及编辑挑战。
你是否曾尝试编辑网上下载的、扫描得到的、或是AI生成的三维模型?它们往往是“一整坨”的几何体,想要调整、驱动或重新赋予某个独立部件(比如椅子腿、角色眼镜)不同的材质都极其困难。
现有的三维部件分割技术能识别出属于不同部件的可见表面块,但往往得到的是破碎、不完整的碎片,这极大地限制了它们在实际内容创作中的应用价值。
HoloPart引入了一项新任务:三维部件完整语义分割(3D Part Amodal Segmentation)——它不仅是将三维形状分解为可见的表面块,而是分解成其背后完整的、包含语义信息的部件,甚至能推断出被遮挡部分的几何结构,即使部分被遮挡也能生成完整部件。
开发者可以在huggingface上试玩。
HoloPart是一种新型扩散模型,由VAST和港大联合研发。受到非模式化感知(Amodal Perception,即人类即使在物体部分被遮挡时也能感知到完整物体的能力)的启发,研究团队通过一个实用的两阶段方法来实现:
HoloPart不仅仅是“填补空洞”。它基于TripoSG三维生成基础模型的生成先验构建,通过在大型数据集(如Objaverse)上进行广泛预训练,并在部件-整体数据上进行专门微调,从而获得了对三维几何的深刻理解。
针对部件补全这一特定任务,HoloPart对TripoSG的扩散变换器架构进行了适配。其关键创新在于双重注意力机制:
这使得HoloPart能够智能地重建隐藏的几何细节,即使对于复杂部件或存在严重遮挡的情况,也能尊重物体的整体结构。
在该项目中,研究团队还利用ABO和PartObjaverse-Tiny数据集建立了新的基准测试来评估这项新任务。实验证明,在处理这种具有挑战性的部件补全任务时,HoloPart的性能显著优于现有的各种先进形状补全方法。
从效果上看,差异是肉眼可见的:其他方法在处理复杂结构时常常失败或产生不连贯的结果,而HoloPart则能持续生成高质量、高保真的完整部件,并与原始形状完美契合。
通过生成完整的部件,HoloPart解锁了一系列以前难以甚至无法自动实现的强大应用:
值得一提的是,作为全球领先的3D生成技术提供方,VAST近来在开源方面可谓动作频频。以上两大开源项目,正是其开源月的第三弹。
此前两周,VAST已先后开源了单张图像端到端生成三维组合场景的MIDI和MV-Adapter,以及两大基础3D生成模型TripoSG和TripoSF。
并且下周,开源还将继续——主打在3D生成领域的前沿探索,三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型。
感兴趣的小伙伴可以蹲一蹲~
【UniRig】
论文:https://zjp-shadow.github.io/works/UniRig/static/supp/UniRig.pdf
代码库:https://github.com/VAST-AI-Research/UniRig
项目主页:https://zjp-shadow.github.io/works/UniRig/
【HoloPart】
论文:https://arxiv.org/abs/2504.07943
代码库:https://github.com/VAST-AI-Research/HoloPart
项目主页:https://vast-ai-research.github.io/HoloPart
Demo: https://huggingface.co/spaces/VAST-AI/HoloPart
文章来自微信公众号 “ 量子位 ”,作者 VAST
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner