腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!
6051点击    2024-12-23 17:22

 我相信经常看我文章的朋友们对前几天我推荐的那个AI生成动漫算法记忆尤新,很多朋友可能都在吐槽说那个算法不太实用,只能生成黑白格式的动漫图案,真实场景中应用的价值不高! 那么博主今天就来弥补你的遗憾,推荐一个动漫上色算法-ColorFlow,这是一个基于三阶段扩散的框架,专为工业应用中的图像序列着色任务所定制。与需要按ID微调或显式ID嵌入提取的现有方法不同,作者提出了一种新的鲁棒且可推广的检索增强着色流水线,用于对具有相关颜色参考的图像进行着色。整个管道包含双分支设计:一个分支用于颜色身份提取,另一个分支用于上色。ColorFlow在多个指标上优于现有模型,为图像着色树立了新的标准,并可能使艺术行业受益。


项目主页-https://zhuang2002.github.io/ColorFlow/

代码链接-https://github.com/TencentARC/ColorFlow

论文链接-https://arxiv.org/pdf/2412.11815


01-ColorFlow背景简介


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    扩散模型在可控图像生成方面取得了空前进展,包括图像修补 ,图像着色和图像编辑。基于扩散模型的生成方案可以显著降低劳动力成本,尤其是在基于参考图像序列着色任务上,它可用于漫画创作,动画制作和黑白电影着色。


    然而,当前的众多研究者只考虑了基础的文本到图像设置,而没有加入参考颜色,导致这些方法无法落地到实际场景中。AnimeDiffusion探索了基于参考图像的动漫角色着色,但它仅支持保留单个弱ID,且参考图像和要着色的图像之间的映射采用面部特征匹配简单地实现,导致效果不佳。


    为了实现高质量的图像着色,作者引入了一项新任务,基于参考图像序列进行着色,旨在通过映射参考图像池中的颜色,将一系列黑白图像转换为彩色图像。这项任务具有巨大的市场需求,但尚未得到解决。虽然之前基于生成对抗网络(GAN)和变分自编码器(VAEs)的解决方案已成功应用于某些应用,如肖像着色等,但由于训练困难和泛化能力有限等原因,并未得到主流认可。


02-ColorFlow算法简介


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    为了解决上述问题,清华&腾讯联合提出ColorFlow,这是一个基于三阶段扩散的框架,专为工业应用中的图像序列着色任务所定制。与需要按ID微调或显式ID嵌入提取的现有方法不同,作者提出了一种新的鲁棒且可推广的检索增强着色流水线,用于对具有相关颜色参考的图像进行着色。整个管道包含双分支设计:一个分支用于颜色身份提取,另一个分支用于上色。


    作者利用扩散模型中的自我注意机制进行强上下文学习和颜色身份匹配。为了评估该模型的性能,作者引入了ColorFlowBench,这是一个基于参考的着色的综合基准。多项评估结果表明:ColorFlow在多个指标上优于现有模型,为连续图像着色树立了新的标准,并可能使艺术行业受益。


03-ColorFlow算法应用场景


03.01-给黑白漫画上色


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


03.02-给线稿图上色


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


03.03-给真实黑白图上色


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


03.04-给卡通故事板上色


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


03.05-给DifSenseif漫画生成器上色


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    我相信很多朋友们对这个算法记忆尤新,把它与ColorFlow结合起来做一个工作流再合适不过了,可以彻底解决你的动漫设计难题,懂得都懂!


04-ColorFlow算法整体流程


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上图展示了ColorFlow。该框架由三个主要组成部分:检索增强管道(RAP)、上下文着色管道(ICP)和引导超分辨率管道(GSRP)。每个组件对于在黑白图像序列中保持实例的颜色身份至关重要,同时确保高质量的着色。


  • 检索增强管道(RAP):受检索增强生成(RAG)的启发,RAP在输入图像和参考池之间匹配ID相关的图像补丁,而不需要对每个ID进行微调或显式的ID嵌入提取,使其更便于用户使用和访问。
  • 上下文着色管道(ICP)作为核心着色模块,ICP采用双分支设计进行图像颜色身份对应和着色。这种结构允许基础扩散模型在保持其图像生成和着色能力的同时,更好地处理身份信息。利用扩散模型中的自注意力机制,我们将参考图像和灰度图像放置在同一画布上,采用预训练好的基础扩散模型提取它们的特征,并将这些特征逐层输入扩散模型进行着色。对于着色,我们使用低秩自适应(LoRA)来微调预训练的基础扩散模型,保持其着色能力。
  • 引导超分辨率流水线(GSRP):通过将高分辨率黑白漫画与低分辨率彩色输出相结合,GSRP增强了细节修复并提高了输出质量,从而减少着色过程中的结构细节失真。


05-ColorFlow算法实现细节


05.01-Patch Wise训练策略


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上图展示了Patch Wise训练策略的实现细节。左侧框展示了来自训练阶段的分割拼接图像,相应的掩码也相应地被分割。右侧框显示了完整的拼接图像和推理阶段的掩码。


    为了解决高分辨率拼接图像训练的大量计算需求,作者引入了一种逐块训练策略。在训练过程中,从参考图像补丁中随机裁剪片段,确保始终包含整个黑白图像区域。按照相同的方式裁剪指示着色区域的相应掩模。


    为了进一步提高性能,作者对输入图像进行降采样,在保留关键细节的同时减少计算负荷。该策略显著缩短了每次迭代的训练时间,促进了更快的模型收敛。在推理过程中,作者使用完整的拼接图像来最大限度地提高着色的上下文信息的可用。


05.02-Heatmap可视化


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上图展示了所选着色区域的自我注意力机制的热图可视化结果。通过观察与分析,我们可以发现:ColorFlow擅长利用扩散模型来有效地保持颜色身份,正如自我关注图所证明的那样。


05.03-输入图像增强策略


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上图展示了Screenstyle增强效果。从左到右分别展示了彩色漫画、灰度漫画,灰度漫画和ScreenVAE之间的线性插值结果,比例为0.66和0.33,ScreenVAE输出。


    作者通过在灰度图像和ScreenVAE生成的输出之间执行随机线性插值来增强输入图像。如上图所示,这种增强策略有助于模型更好地适应各种风格,并提高着色过程的整体性能。


06-ColorFlow算法上手指南


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


欢迎使用 ColorFlow 演示。请按照以下步骤探索我们模型的能力:


步骤1--选择输入样式:灰度图(ScreenStyle)、线稿。


步骤2--上传您的图像:使用“上传”按钮选择要上色的图像。


步骤3--预处理图像:点击“预处理”按钮以去色图像。


步骤4--上传参考图像:上传多张参考图像以指导上色。


步骤5--设置采样参数(可选):调整设置并点击 上色 按钮。


⏱️ ZeroGPU时间限制:Hugging Face ZeroGPU 的推理时间限制为 180 秒。您可能需要使用免费帐户登录以使用此演示。大采样步骤可能会导致超时(GPU 中止)。在这种情况下,请考虑使用专业帐户登录或在本地计算机上运行。


07-ColorFlow算法性能评估


07.01-主观效果性能评估


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上图展示了该方法与多个SOTA方法(MC-v2、EBMC、Style2Paint)在漫画着色中的比较结果。通过观察与分析,我们可以发现:该方法展现出卓越的美学效果,能够产生更接近原始图像的颜色。


07.02-客观效果性能评估


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    上表展示了该算法与多个SOTA基于参考图像的着色方法的定量比较效果。作者比较了两个没有参考图像输入的模型:漫画着色V2(MC-V2)和AnimeColorDeOldify(ACDO),以及两个基于参考图像的着色模型:基于示例的漫画着色(EBMC)和ScreenVAE。通过观察与分析,我们可以发现:该算法在多个评估基准上面都获得了最佳的得分,与第二名之间拉开了较大的差距!


08-ColorFlow算法效果展示


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


图8.1-ColorFlow算法上色效果展示1


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


图8.2-ColorFlow算法上色效果展示2


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


图8.3-ColorFlow算法上色效果展示3


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!


    作者在https://huggingface.co/spaces/TencentARC/ColorFlow网页提供了一些Demo样例,但是每个使用者的时间有限,博主的时长已用完,感兴趣的朋友可以自己去测试更多的效果!


文章来自微信公众号 “AI产品汇”,作者“AI产品汇”


腾讯利用AI完美破译「黑白世界」,实现动画色彩“无损还原”,国产动漫产业{光速逆袭}!

关键词: AI , 腾讯AI , ColorFlow , AI动漫
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner