一种面向多对象空间条件的图像生成系统和方法

申请号：CN202511157744

申请日期：2025-08-19

公开号：CN120655767B

公开日期：2025-11-14

类型：发明专利

摘要

本发明提供了一种面向多对象空间条件的图像生成系统和方法，所述系统包括数据集构建模块、特征提取模块、多对象空间条件的图像生成模型、及模型训练与推理生成模块。本发明基于包含对齐和非对齐空间条件的多模态数据集，提取对象级语义特征，以ControlNet为基本框架引入对象级结构控制子模块和对象级控制松弛子模块，通过自适应注意力机制精准关联文本描述与空间结构，动态量化文本‑空间条件冲突程度，实现局部结构自适应调整，构建出多对象空间条件的图像生成模型，解决现有技术中语义一致性不足与创意可控性受限两大难题，显著提高图文一致性、空间控制精度及图像质量，能够兼容多种扩散模型并支持与视觉语言模型集成提升交互体验。

技术关键词

面向多对象图像生成模型图像生成系统语义特征子模块文本原始图像数据特征提取模块查询特征分阶段图像生成方法注意力松弛执行点积运算键特征矩阵噪声