摘要
本发明提供了一种面向多对象空间条件的图像生成系统和方法,所述系统包括数据集构建模块、特征提取模块、多对象空间条件的图像生成模型、及模型训练与推理生成模块。本发明基于包含对齐和非对齐空间条件的多模态数据集,提取对象级语义特征,以ControlNet为基本框架引入对象级结构控制子模块和对象级控制松弛子模块,通过自适应注意力机制精准关联文本描述与空间结构,动态量化文本‑空间条件冲突程度,实现局部结构自适应调整,构建出多对象空间条件的图像生成模型,解决现有技术中语义一致性不足与创意可控性受限两大难题,显著提高图文一致性、空间控制精度及图像质量,能够兼容多种扩散模型并支持与视觉语言模型集成提升交互体验。