ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
腾讯3D大模型全面开源,文本图像10秒转3D资产,模型权重、推理代码全开放
3207点击    2024-11-05 20:40

3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。


就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。


最快10秒就能端到端生成。


先生成6个多视角图像,再进行多视角重建,“啪”的一下360度无死角的3D资产就造出来了。



无论是人物形象:



还是像下面这样婶儿的葡萄等复杂结构生成,细节都蛮不错:



薄薄的枫叶也能完整生成:



镂空雕刻花纹生成效果Belike:



实验中,Hunyuan3D-1.0定性定量评估均超越此前SOTA开源模型,推理性能提升很大,轻量版A100 GPU上生成时间约10秒,标准版约25秒。


目前Hunyuan3D-1.0模型权重、推理代码、模型算法等,已全部开源。


量子位童鞋在发布现场,还拿到了3D生成后直接拿来3D打印的小手办~



多视图生成、重建两步炼成


技术实现上,腾讯混元团队发布了一份技术报告。



Hunyuan3D-1.0模型架构如下,采用多视图生成、多视图重建两阶段生成方法。



对于输入图像,首先使用多视角扩散模型在固定相机视角下合成6个新视角图像,从不同的视角捕捉了3D资产丰富的纹理和几何先验,将3D生成任务从单视角重建转化为难度更低的多视角重建任务。



然后将生成的多视角图像输入基于Transformer的稀疏视角大规模重建模型


利用上一阶段生成的多视角图像,重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。



最终,该模型可以实现输入任意单视角生成3D资产



具体来说,第一阶段多视图生成采用了自适应CFG(classifer-free guidance),为不同视角和time steps设置不同的CFG尺度值。


在输入视角的临近视角CFG大,保证生成控制更强,与输入图更接近;较远视角CFG小,生成diversity更大,保证生成图像的真实性。



另外,为了保证角度鲁棒性、兼容任意输入视角,渲染训练数据时候,渲染不同俯仰角作为输入,输出0°俯仰角的多视图。


输入任意视角图像,生成环绕一圈的俯仰角elevation=0的6张图,最大化多视图间的可见区域,并通过attention保持多视角一致,为下一步的多视图重建模型提供高一致性、高真实性的多视图图像。


在第二阶段多视图重建方面,Hunyuan3D-1.0结合了已校准(生成的多视角图像)和未校准(用户输入)混合输入,通过专门的视角无关分支整合条件图像信息,由此以提升生成图像中的不可见部分精度。


图像信息通过cross-attention注入triplane token中。


Hunyuan3D-1.0还通过线性层将特征平面的分辨率从64上采样到256,使得特征表征更加细腻,生成物体细节更丰富。



值得一提的是,Hunyuan3D-1.0还采用了Signed distance function(SDF)的隐式表示,最后通过Marching cube算法在三维空间进行采样查询得到signed distance来输出3D mesh,可以直接与3D管线结合。


拿下开源新SOTA


实验结果显示,Hunyuan3D-1.0具有强大泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。


在两个公开3D数据集GSO、OmniObject3D上定量评估3D生成质量,包括Chamfer Distance(CD)、F-score (FS)指标,Hunyuan3D-1.0表现总体最优



定性评估方面,Hunyuan3D-1.0在几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度上,全面超越SOTA开源模型



用户喜好打分结果如下:



Hunyuan3D-1在保证高质量、多样化生成之外,推理性能也大幅提升,显著减少了3D资产生产的耗时。



“3D生成技术今年已进入快速发展阶段”


推出Hunyuan3D-1的同时,腾讯混元3D大模型也正在落地应用中——


据了解,腾讯地图目前就已基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标。


腾讯元宝APP也上线了“3D角色梦工厂”,支持个性化的UGC 3D人物生成。



今年3D赛道实属火炎焱。


国内有VAST、AVAR AI等,初创公司多来自全球知名高校和科研机构;国外有AI教母李飞飞首次创业成立的空间智能公司World Labs,也着眼于3D生成世界,宣布长期目标是构建大世界模型(LWM)来感知、生成3D世界并与之交互。


鹅厂这波开源操作,无疑是把大伙儿玩3D模型的门槛又打下来了。


正如腾讯混元3D负责人郭春超所说:


3D生成技术今年已进入快速发展阶段,3D AIGC作为新的生产力工具,能为复杂的传统3D制作流程提效,可应用于游戏、工业制造、社交娱乐等领域,未来可能会与机器人等领域结合,赋能空间智能。


官网地址:https://3d.hunyuan.tencent.com/


文章来自于微信公众号“量子位”,作者“西风”