按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

8430点击 2024-07-01 15:37

多件衣服按指定穿法一键虚拟试穿！

中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架，可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。

比如选中一件大衣、一条裤子，再配一个包，用语言描述穿法，“啪”的一键就穿到了人像上：

无论是真人图像又或是漫画人物，都能一键按照搭配试穿衣服：

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

对于单图换装，MMTryon有效利用了大量的数据设计了一个表征能力强大的服装编码器，使得该方案能处理复杂的换装场景及任意服装款式；

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

对于组合换装，MMTryon消除了传统虚拟换装算法中对服装精细分割的依赖，可依靠一条文本指令从多张服装参考图像中选择需要试穿的服装及对应的穿法，生成真实自然的组合换装效果。

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

在基准测试中，MMTryon拿下新SOTA。

多模态多参考注意机制加持，效果更精确灵活

虚拟换装技术旨在将模特所穿服饰或者衣服的平铺图穿到目标人物身上，达到换装的效果，但是之前虚拟试穿的方案存在一些技术难点没有解决

首先，现有的方法通常是为单件试穿任务（上衣/下衣、连衣裙）而设计的，并且无法自定义着装风格，例如，外套拉上/拉开拉链、上衣塞入/塞出等。

另外，之前的方案严重依赖特定于类别的分割模型来识别试穿区域，如下图所示如果分割错误则将直接导致试穿结果中出现明显的试穿错误或者伪影等情况。

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

为了解决这些问题，研究团队提出了MMTryon，将参考图像中的服装信息与文本指令中的着装风格信息通过一种新颖的多模态和多参考注意机制来进行表示，这使得该方案支持组合式换装以及多样的试穿风格。

此外，为了消除对分割的依赖性，MMTryon使用了表征能力丰富的服装编码器，并利用新颖的可扩展的数据生成流程增强现有的数据集，这样在推理阶段，MMtryon无需任何分割，仅仅通过文本以及多个试穿对象即可实现高质量虚拟换装。

在开源的数据集以及复杂场景下进行的大量实验在定性和定量上证明了MMTryon优于现有SOTA方法。

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

接下来是更具体的方法。

首先研究团队预训练了一个服装编码器，在这一stage中MMTryon利用文本作为query，将得到的特征与grouding dino+SAM所得到的mask计算一个query损失。

目标是经过text query 后仅激活文本对应区域的特征，这样可以摆脱对于服装分割的依赖。同时，利用大量的pair对更好的编码服装特征。

之后，为了更稳定的训练组合换装，需要多件服装组合式换装的pair图，但是这样的pair图采集成本很高。

为此，研究团队提出了一个基于大模型的数据扩增模式，利用视觉语言模型以及grouding dino+SAM去得到了不同区域的mask，来保护对应的上衣或者下衣区域，利用stable diffusion XL去重绘保护区域外剩下的内容，构建了100w的增强数据集，训练中将增强数据集与90w原始数据一起加入训练。

基于增强的数据集以及服装编码器，MMTryon设计了多参考图像注意力模块和多模态图文注意力模块，其中多参考图图像注意力模块用于将多件衣服的特征注入到目标图像来控制多件衣服的试穿，多模态图文注意力模块利用详细的文本与图像的clip编码来控制多样的试穿风格。

可以看到，MMtryon 由于服饰编码器丰富的表征能力，对于各种类型的换装都可以有真实的虚拟试穿效果：

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

无论是真人图像还是挂台服饰，只需要多张服装参考图像及文本，就可以组合式换装并控制换装风格。

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

甚至还能作为一个fashion换装辅助设计来帮你买衣服：

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

在量化指标上，MMTryon优于其他baseline的的效果，在开源数据集测试集合的Human evaluation中，MMTryon也超过其它baseline模型

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

在复杂场景的Human evaluation中，MMTryon也超越了目前的社区模型outfit anyone。

研究人员收集了复杂场景女装图片142张，男装图片57张，非服装图片87张，共邀请15位参与者参与评测，选择更喜欢的方案结果。从图表中可以看出，MMTryon的效果更受测试者的喜欢。

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

更多细节，感兴趣的家人们可以查看论文～

文章来源于“量子位”，作者“关注前沿科技”

按需搭配一键叠穿，效果拿下新SOTA！中山大学&字节智创数字人团队提出虚拟试穿新框架

关键词: AI , AI数字人 , MMTryon , 虚拟试穿

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales