一种基于联合扩散建模的图像生成与理解统一方法及系统
申请号:CN202511205486
申请日期:2025-08-27
公开号:CN120953442A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于联合扩散建模的图像生成与理解统一方法及系统,其涉及图像生成和理解技术领域。本发明通过联合扩散建模统一图像生成与理解任务,无需为生成和理解任务分别设计模型,提升效率。通过改进的DINOv2、Segmenter、DETR模型增强了分类特征类簇聚合性、分割边界细节及检测中小目标特征表达。随机角色分配机制和掩码全注意力机制灵活处理多域信息,域不变位置编码辅助跨域对齐,提升建模精度。通过优化训练使模型同时支持联合生成、可控生成及图像感知任务,性能优于现有统一模型,在边缘检测等任务上甚至超过专有模型。
技术关键词
训练特征
图像分类模型
图像分割模型
编码器
融合特征
融合编码信息
注意力机制
多尺度特征
子模块
标签
语义
感知特征
分类特征
速度预测模型
卷积特征
边缘检测算子