ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一分钟原画变3D角色,清华VAST成果入选图形学顶会SIGGRAPH
9207点击    2024-07-12 15:48

随便一张立绘都能生成游戏角色,任意IP快速三维化有新招了!


来自清华大学和VAST的研究人员联合推出了CharacterGen——


一种三维风格化人物生成框架。



具体而言,CharacterGen采用两阶段生成模式,可在1分钟内从单图生成高质量的标准姿态三维人体。


目前相关论文已入选计算机图形学顶会SIGGRAPH 2024,且在社区引发了热烈讨论。


CharacterGen开源后,已有玩家第一时间将其纳入了ComfyUI-3D工作流。



网友们搓手表示:


迫不及待看到构建3D角色工作流更简单!



更多详情接下来一起康康~


1分钟单图变3D角色


新框架CharacterGen想做的事儿,是将用户输入的复杂人物图像转换为标准Pose的三维人物网格



总体而言,框架可分为如下两部分


  • 多视角人物图像生成器。以给定的带姿势人物图作为输入,通过Diffusion模型生成高度一致性的四视角图像。

  • 三维重建模型。将生成的四视角图像重建,得到最终的三维人体以及对应的粗纹理。

最终,通过纹理投影策略,将多视角图像投影到重建的粗纹理之中,得到最后的高质量三维人物模型。


整个流程可以在A800单卡上1分钟内完成。


并且由于A-pose(人物两脚并拢,双手自然下垂,身体直立)的设置,可以方便地运用于下游的各种任务。


“A-pose”是动画和3D建模中的一个基准点,它提供了一个简单、统一的起点来进行后续的建模和动画工作。



为了进一步提高扩散模型理解3D角色的能力,团队准备了包含13,746个风格化角色主题的Anime3D数据集。


而且为了让多视角人物图像生成器能学到足够的先验,完成对风格化人物的多视角生成和人物的姿势转换,团队渲染并筛选了组数据


每一组数据都包含了多组同一个人物在一个非标准姿势和标准姿势下的四视角渲染图像。


多视角人物图像生成器


团队采用了Dual-pass的多视角人物图像生成器。


它不仅能生成四视图的人物图像,还能在生成过程中完成姿势的标准化。



此外,团队在基本的多视角diffusion模型之外,添加了一个同样结构的IDUNet来提取输入人物图片的特征。


IDUNet逐层提取未加噪的图像的外表特征,通过Cross-Attention机制和Base-Diffusion模型中的多视角图像进行Patch-level的交互,使得最终生成的多视角人物具有极高的一致性。



最后,生成器也包含一个布局姿势指导器Pose Guider,进一步为人物的姿势提供先验,并且使得生成人物的布局能够位于图片正中。


三维重建模型


参考三维重建大模型(LRM),团队设计了针对四视角输入图像的三维重建模型。


团队首先仿照LRM,训练了基于NeRF的重建模型


为了获得更好的表面几何,在训练第二阶段使用SDF表达作为输出,进一步精调重建模型。


最后,由于重建模型难以获得高清晰度的纹理,研究团队还引入了纹理投影机制


具体而言,通过四视角本身预设的相机参数,将高质量的四视角生成图片投影到粗纹理图上,同时使用法向数值来筛出重叠和边缘的像素,得到最终的纹理贴图。



实验结果


研究团队分别从二维多视角图片质量以及三维人物模型质量上对方法进行了评估。


在二维方法上,研究团队选取了Zero123和SyncDreamer作为Baseline进行比较。


结果显示,在生成人物图像的纹理质量和外表一致性上,CharacterGen取得了超越之前方法的效果。



在三维方法上,团队选取了Magic123和ImageDream作为泛用图像驱动生成的Baseline,选择TeCH作为图像驱动SMPL生成的Baseline。


实验表明,CharacterGen生成的标准A-pose姿势人体能够避免网格的黏贴问题,并且在纹理和几何上拥有更高的质量。



此外,团队也在Anime3D的验证集上,对CharacterGen和Baseline方法进行了定量的比较。


评估指标包括:


  • SSIM和LPIPS指标:衡量生成的对应视角图片与ground-truth图片的相似程度

  • FID指标:评价风格上的一致性

  • Chamfer-Distance指标:比较生成网格的几何质量

在这些指标上,CharacterGen都能获得更优的效果。



目前相关论文已公开,感兴趣可以进一步了解。


此外,研究团队还开源了基于Jittor框架JDiffusion库的CharacterGen实现(计图Jittor是清华大学计算机系图形学实验室于2020年3月20日发布并开源的深度学习框架)


文章来源于“量子位”,作者“关注前沿科技


关键词: VAST , AI , AI绘图 , CharacterGen
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm