腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光
8766点击    2025-09-23 10:11

建模师们有福了!


不用在建模、UV、贴图软件之间反复横跳,一个工作台就能得到:


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


这是腾讯专为3D设计师、游戏开发者、建模师等打造的专业级AI工作台混元3D Studio


一个平台搞定整套设计流程,不管是前期的概念设计、几何建模,还是进一步的组件拆分、低模拓扑,以及后续贴图、绑骨蒙皮、动画等都能全覆盖。


这下真让3D资产生产周期从几天变成分分钟了。


那它是怎么做到的呢?让我们来个深度剖析。


七大核心技术模块


核心架构


混元3D Studio整体是一个顺序且模块化的工作流程。


其中每个阶段都会对资产进行处理,并为下一个阶段提供至关重要的数据输入。从最初的创意到最终的游戏资产,这一设计确保了整个过程的无缝衔接与自动化。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△混元3D Studio工作流


整个工作流共包含:


组件拆分:利用连通性分析和语义分割算法,复杂模型能够被自动拆解为逻辑上和功能上独立的组件(例如:步枪的弹匣、枪管和枪托),从而实现组件的独立编辑和动画制作。


可控图像生成(概念设计):文本或图像皆可作为输入模态,支持文生图和图生多视图功能。此外,专用的A-Pose标准化模块确保角色模型骨架姿势的一致性,风格迁移模块则用于调整图像视觉效果,以匹配目标游戏的美术风格。


高保真几何生成:基于当前先进的扩散模型架构,根据单视图或多视图图像生成精细的三维网格模型(高模)。得益于强大的跟随能力,能够确保生成的几何结构与输入prompt高度一致,并极大地还原物体的3D表面细节。


低模拓扑生成(PolyGen):该模块摒弃传统的基于图形学的重拓扑方法,采用自回归模型逐面地生成低多边形资产。通过将几何表面的点云作为条件输入,PolyGen能够智能生成高保真网格对应的拓扑结构,适用于游戏资产等应用场景,满足低顶点数、结构合理以及良好变形适应的边流分布。


语义UV展开:不同于传统的语义性差的传统UV展开方法与人工UV展开。语义UV展开模块实现了具备上下文语义感知的UV切线生成,可以依据模型的形状与布线分布进行结构分析,提升UV拆分的语义性、合理性与可用性,进而有利于高质量纹理的生成。


纹理生成与编辑:集成了生成式大模型,可根据文本或图像prompt生成物理准确的PBR纹理,并通过无损编辑层,支持用户使用自然语言指令对纹理进行精细化二次调整。


绑骨蒙皮&动画特效:在自动化的最后阶段,该模块能够推断骨骼关节位置与层级结构,并计算顶点权重,生成可直接用于标准游戏引擎的可驱动动画资产。


共七个核心技术模块,其中每个模块都对应资产制作流程中的某一关键阶段,下面一个个来看。


组件拆分


团队提出了一种用于打造可投入生产、可编辑且结构合理的三维资产的新范式。


给定一张输入图片,首先使用Huyuan3D获取整体形状。然后,将整体网格传递给部件检测模块P3-SAM以获得语义特征和部件的边界框(bounding boxes)。最后,由X-Part将整体形状分解为各个部件。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△组件拆分整体流程


其中,P3-SAM(原生3D语义分割)是组件拆分生成流程中的关键步骤。


P3-SAM包含一个特征提取器、三个分割头和一个IoU(交并比)预测头。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△混元3D Studio工作流


PointTransformerV3作为特征提取器,并融合其不同层级的特征作为点级特征。


输入的点提示和特征信息会被融合,并传递至分割头,用于预测三个多尺度掩码。


同时,IoU预测头用于评估掩码质量。为实现物体的自动分割,利用FPS(最远点采样)生成点提示,配合NMS(非极大值抑制)合并冗余掩码。


点级掩码随后被投影到网格面上,从而获得部件分割结果。


本方法的另一关键创新在于,完全摒弃2D SAM的影响,依赖于原生3D部件监督,进行原生3D分割模型的训练。


还提出了一个可控且可编辑的扩散框架X-Part


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△X-Part流程


首先,为实现可控性提出了一个基于部件级提示的特征提取模块,利用包围盒作为提示,指示部件的位置和尺寸,而不是直接将分割结果作为输入。


其次,将语义特征以精心设计的特征扰动方式引入到框架中,这有助于实现有意义的部件分解。


为了验证X-Part的有效性,在多个基准数据集上进行了大量实验。结果表明,X-Part在组件级分解和生成方面取得了当前最优的表现。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△横向量化比较


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△组建拆分横向效果对比



腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


建拆分效果展示


可控图像生成(概念设计)


可控图像生成包含图像风格化与姿态标准化两大模块。


图像风格化模块允许用户在3D建模前,通过配置选项一键生成多种主流游戏美术风格的3D设计图。


用户可提供任务对象图像,并通过文本的风格化指令。格式为“Change the style to {style type} 3D model. White Background.”,从而生成内容保持一致且艺术风格精准符合指令要求的风格化输出。


训练数据以三元组形式构建: {输入参考图像,风格类型,风格化3D设计图},实现对写实图像与风格化作品的精确映射。


针对无参考图像的文本到图像风格化的应用场景,系统先用自研通用文本图像生成模型合成参考图像,再经过图像风格化流水线,最终输出风格化作品。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△风格化效果展示


针对任意角色参考图像的姿态标准化(如A-pose),需兼顾姿态精准控制和角色一致性的严格保持,并需实现对参考图像中背景和道具的消除。


为此,团队将含任意姿态/视角的角色图像作为条件输入,注入来引导生成过程。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△姿态标准化流程图


数据集构建:首先基于角色渲染数据,构建[任意姿态/视角角色图像,标准A-pose正面图像]的图像对。


随后,将含有道具(如手持武器、基座等)的渲染数据输入编辑模型,剥离角色本体之外的道具与背景,保证形象一致性。最终所得图像对经人工筛选,纳入数据集,使模型具备道具与背景剔除能力。


训练策略采用了分辨率递进思路,自512×512起步,逐步升至768×768,促使模型更好地学习细粒度特征,显著提升生成图像在面部、复杂服饰等细节部分的保真度。


此外,针对同一角色在不同场景下的参考图像进行随机条件输入,提升姿态泛化能力和生成一致性。


团队还特别收集了高质量数据集,涵盖半身像、非人型类人物及拟人化角色等难度类型,并在后期采用SFT和DPO进一步微调,增强模型泛化性与鲁棒性。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△姿态标准化效果


高保真几何生成


高保真几何生成的工作流水线基于业界领先的Hunyuan3D框架,整体结构包含如下两个子模块:


Hunyuan3D-ShapeVAE:一种变分编码–解码式的Transformer结构,先对三维几何体进行压缩,再进行重构。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△几何生成流程


Hunyuan3D-DiT:一种基于流的扩散模型,直接在ShapeVAE的潜空间操作。


网络由21层Transformer堆叠而成,每层包含Mixture-of-Experts (MoE)子层,有效提升模型容量与表达力。


Hunyuan3D-DiT通过流匹配目标训练,将高斯噪声映射到形状潜变量,实现形状生成的高效及高质量采样。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


在训练过程中,有意对图像或点云进行微小的形变,使得图像中的物体比例与对应点云不完全一致,从而促使模型学会响应包围盒这一控制信号。


多视图图像生成条件。为充分利用图像生成模型的强大能力,将多视角图像(由扩散模型生成)作为角色建模的额外条件约束。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△多视图生成流程


单图到多视图图像生成。如图所示,为了从单张输入图像高保真地合成多视角视图,本方案在预训练文本到图像基础模型之上引入轻量LoRA适配层。训练数据集由任意视角摄像机采集的物体中心视图及其对应的多视图真实图像对组成。


训练时,通过模型原生的变分自编码器(VAE)分别将单视图输入与多视图目标编码为潜在表达。


LoRA层以两个信息源为条件:一是无噪单视图图像的潜变量(与加噪的多视图潜变量拼接用于结构引导);二是借助预训练 SigLIP 视觉编码器提取的输入图像语义条件向量。最终用标准流匹配损失优化LoRA参数。


多视图条件注入。与单图条件类似,首先将所有视角图像编码为图像潜变量


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


每个除原始图像外的视图都注入一个带固定索引的正弦位置编码。其后,所有生成视图的潜变量与原始图像潜变量在序列维度拼接,形成最终条件向量。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△包围盒条件控制生成效果


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△多视图条件控制生成效果展示


低模拓扑


在几何生成高模或用户提供的模型基础上,低模拓扑模块的目标是生成干净、符合美术规范的拓扑结构。


尽管在高保真几何生成模块或组件拆分模块已经生成了精致的形状,这些形状通常由大量杂乱的三角面组成,难以直接用于下游应用(如语义UV展开和绑定)。


因此,采用自回归模型,直接从生成形状的点云预测低模拓扑的顶点和面。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△低模拓扑整体结构图


网格分词化(Mesh Tokenization)。


为了以下一个token预测范式建模网格,第一步是将其分词为一维序列。


采用了Blocked and Patchified Tokenization (BPT)作为网格的基础分词方法。具体来说,BPT结合了两个核心机制:


1)块级索引(Block-wise Indexing),它将三维坐标划分为离散空间块,将笛卡尔坐标转化为块偏移索引,以利用空间的局部性;


2)Patch聚合(Patch Aggregation),通过选取高度数顶点作为patch中心,将相连面片聚合为统一的patch,进一步压缩面片级数据。每个patch以中心顶点及其外围顶点的顺序进行编码,减少了顶点的重复,提高了空间一致性。通过BPT,模型的训练和推理效率都得到了显著提升。


网络结构。


低模拓扑模块的网络结构由点云编码器和自回归网格解码器组成。点云编码器主要受到Michelangelo和 Hunyuan3D系列的启发,采用Perceiver架构,将点云编码为条件编码cp。


随后,采用Hourglass Transformer作为网格解码器骨干,通过交叉注意力层以点云token作为条件进行解码。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


为了进一步利用高多边形网格数据并提升训练效率,本方案采用了截断训练策略(truncated training strategy)。具体来说,每次训练迭代时,会随机选取长度为固定面数(如4k面)的网格序列片段进行训练。而在推理阶段,我们应用滚动缓存(rolling cache)策略,以缩小训练和推理阶段之间的差异。



下图展示了后训练后的改进效果,实验结果表明后训练阶段对于提升生成网格的完整性和拓扑质量至关重要。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△预训练预后训练效果对比


如图所示,本方案与现有的低模拓扑方法对比如下。从图中可以看出,本方案能够生成结构更复杂且拓扑质量和稳定性显著提升的网格。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△与其他方案效果对比


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△基于组件拆分Mesh的低模拓扑生成效果


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△不同面数级别低模拓扑效果对比


语义UV展开


传统UV展开方法的结果往往缺乏语义意义,这将显著影响后续贴图的质量与资源利用效率。


因此,这些传统方法难以直接应用于游戏开发、影视制作等专业流水线。为应对这一挑战,本节提出了一个通过自回归方式生成艺术家风格裁切缝的新型框架SeamGPT。


将曲面裁切问题建模为序列预测任务,将裁切缝表示为有序的三维线段序列。给定输入网格M,目标是生成缝边


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


。SeamGPT的整体流程如下图所示。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△SeamGPT整体架构图


本方案采用两种损失函数进行模型训练:用于token预测的交叉熵损失和用于正则化形状嵌入空间的KL散度损失,确保该空间保持紧凑且连续。模型经过一周训练后收敛。


训练期间,首先将所有样本缩放至一个立方体边界框内,范围为−1到1。随后应用数据增强技术,包括在 [0.95,1.05]区间内的随机缩放、随机顶点抖动和随机旋转。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△与其它方法的量化比较


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△可视化对比


纹理生成与编辑


混元3D团队提出了一种高保真的纹理合成方法:将二维扩散模型扩展为几何条件下的多视角生成模型,并通过视图投影将其结果烘焙为高分辨率的纹理贴图。


该体系结构系统性地解决了多视角纹理生成的两个核心挑战:


  1. 跨视角一致性与几何对齐;
  2. RGB纹理向光照真实PBR材质纹理的扩展


本节将纹理生成框架扩展为支持多模态纹理编辑的综合系统。


首先,增强了现有的多视角基于物理渲染(PBR)材质生成模型,以支持文本和图像引导的多模态编辑。


其次,提出了一种基于材质的三维分割方法,能够从仅含几何信息的输入网格中生成按部件划分的材质分割图,实现局部纹理编辑。


最后,引入了一种4K材质球生成模型,能够根据文本提示合成高分辨率的可平铺纹理球,包括基础色(Base Color)、金属度(Metallic)、粗糙度(Roughness)和法线贴图(Normal),以支持专业的艺术创作流程。


多模态纹理编辑。本节引入了一种文本引导的纹理编辑模型,该模型基于精心整理的包含8万份高质量PBR材质三维资产的数据集进行训练。


这些资产被渲染成多视角的HDR图像,并借助视觉-语言模型(Vision-Language Model, VLM)生成了纹理描述性标题和编辑指令。


利用图像编辑模型框架,构建了覆盖多视角的大规模图像编辑对。


随后,纹理基础模型从这些图像对中推断出一致的多视角纹理,合成了大量文本-纹理配对,用于微调编辑模型。在训练过程中,将文本提示和参考图像特征统一编码为联合潜变量序列。


基于基础纹理生成模型,系统通过3万对文本-纹理样本实现端到端优化,最终得到一个能够在文本和视觉指导下进行纹理合成与编辑的统一模型。


针对图像引导的纹理编辑模型,提出了一种简化的专家混合(Mixture of Experts,MoE)架构,以处理多样化的图像输入。


为判断输入图像是否与目标几何体匹配,团队计算几何渲染视图与输入图像之间的CLIP相似度。当引导图像与目标网格具有较高的几何对应关系时,通过变分自编码器(VAE)编码器注入图像特征;


否则,采用CLIP图像嵌入进行特征融合,类似于IP-Adapter的方法。这种自适应条件机制确保在任意图像条件下实现鲁棒的纹理编辑。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△文本和图像引导的纹理编辑


上图展示了令人惊叹的多模态编辑效果,表明能够对游戏中的物体(如道具和角色)进行多样风格的材质编辑,且支持全局和局部修改。


基于材质的3D分割。对于分割任务,本方案采用了类似于PartField的分割框架。


该框架首先从输入的点云或网格数据中提取特征,随后基于提取的三维点特征进行聚类,将三平面(triplane)表示转换为更紧凑的VecSet表示。


特征提取模块通过包含30万个三维资产的数据集进行端到端训练。


在零件标注方面,利用了原始三维资产中嵌入的材质槽和零件标注,同时过滤掉不可靠的零件数据。


在聚类过程中,采用SAM来确定初始的聚类中心数量,从而保证聚类的鲁棒性和性能。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△材质图生成流程


4K材质图生成。本节创新性地改编了原本用于编码连续视频帧的3D VAE框架,将多域材质数据(包括渲染图、基础色、凹凸、粗糙度、金属度等)压缩为统一的潜在表示,从而实现可扩展的4K分辨率纹理合成。


具体而言,通过带有纹理的三维资产对3D VAE进行微调,以实现域不变的特征提取,得到一个PBR-VAE模块。随后,使用材质球数据集对3D扩散变压器(Diffusion Transformer,DiT)进行微调,构建了材质球生成模型的核心架构。


绑骨蒙皮&动画特效


本节介绍了绑骨蒙皮与动画特效模块,该模块由两大部分组成:人形角色动画模块通用角色动画模块


每个角色输入首先经过检测模块处理。如果输入被判定为人形角色,则进入人形动画分支;否则,转入通用动画分支。


人形分支包括基于模板的自动绑定模块动作重定向模块


为在骨骼生成的准确性与易用性之间取得平衡,团队采用22个身体关节作为模板骨骼。类似构建绑定与蒙皮模型,但与其在蒙皮预测中未融合绑定相关信息不同,本方案的模型同时整合骨骼特征和顶点特征,以实现更精确的结果。


此外,系统还包含姿势标准化模块,将用户提供的任意姿势模型转换为标准的T型姿势。将T型姿势模型输入动作重定向模块,可获得更可靠且精确的效果。


相较之下,通用分支融合了自回归骨骼生成模块与几何拓扑感知蒙皮模块。由于通用角色在骨骼拓扑和关节数量上存在差异,大多数现有骨骼生成方法基于自回归技术,本研究模块即建立在这些自回归方法之上。


关于蒙皮模块,以往算法通常仅将网格顶点和骨骼关节作为输入特征,较少关注它们之间的拓扑关系。相比之下,团队的蒙皮模块显式融合了这些拓扑关系,从而带来更稳健和稳定的结果。


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△与其它方法的绑骨蒙皮效果对比


腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光


△动作驱动效果展示


以上模块通过统一的资产图进行协同管理,各阶段输出的元数据会传递至下游流程。


这种机制实现了参数化控制,使高层次的美术调整能够贯穿整个管线,同时具备可逆性,支持增量式更新而无需全量重算。


最终输出可以根据目标游戏引擎(如Unity或Unreal Engine)的规范进行配置与导出。


感兴趣的朋友可戳下方链接体验~


体验地址:https://3d.hunyuan.tencent.com/studio技术报告:https://arxiv.org/pdf/2509.12815


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0