摘要
本申请实施例提供工业图像自动标注方法、装置、设备和存储介质,涉及人工智能技术领域。该方法获取待标注图像,将待标注图像输入视觉编码器进行特征编码得到图像特征,获取与工业图像相关的领域术语集合,根据初始噪声向量得到查询向量,根据图像特征得到键向量和值向量,将查询向量、键向量、值向量输入扩散模型,以领域术语集合作为约束条件进行多个时间步的迭代特征处理,得到文本潜向量,将文本潜向量和领域术语集合输入文本解码器进行解码,得到待标注图像对应的图像标注文本。在标注生成全过程都利用领域术语集合作为约束引导,确保标注文本始终围绕具体的工业场景展开,能够显著提高工业图像标注的准确性与规范性。