基于检索增强与多源特征融合的图像生成方法及装置

申请号：CN202510939083

申请日期：2025-07-08

公开号：CN120807714A

公开日期：2025-10-17

类型：发明专利

摘要

本申请提供一种基于检索增强与多源特征融合的图像生成方法及装置。该方法包括：对参考图像进行特征提取，并根据参考图像的特征，对检索增强生成库中的图像特征进行相似度检索，得到检索图像；对参考图像和检索图像进行编码，得到相应的全局特征，对全局特征进行多视角特征注意力处理，得到综合图像特征；将全局文本描述和局部文本描述按照语义结构拆分为若干个分段描述，并利用检索增强生成库对分段描述进行检索和扩充，得到综合文本描述特征；将综合文本描述特征与综合图像特征输入到扩散模型中进行特征融合，并输出符合参考图像及文本描述的目标图像。本申请能够使图像与文本信息融合充分，提升生成图像的准确性和图像质量。

技术关键词

检索图像多视角特征图像生成方法语义结构分段大语言模型多层感知机文本特征向量图像特征向量注意力机制对象图像块位置编码信息标记图像生成装置文本编码器图像编码器