基于多模态融合的意图识别方法、装置、设备及介质

申请号：CN202511193142

申请日期：2025-08-25

公开号：CN121030668A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及智能决策技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了一种基于多模态融合的意图识别方法、装置、设备及介质，包括：提取操作界面的界面文本与界面图像；提取界面文本的文本语义特征向量，提取界面图像的设计模式结构特征及点云结构特征；利用空间注意力矩阵将设计模式结构特征与点云结构特征融合，得到结构融合特征向量；将结构融合特征向量与文本语义特征向量进行融合，得到多模态融合特征；对分类模型进行训练，输出用户意图识别模型，并利用用户意图识别模型对多模态融合特征进行意图分析，得到意图类型；根据意图类型及预先获取的操作消息确定目标用户的操作意图。提升用户真实意图识别时的准确性。

技术关键词

意图识别方法意图识别模型多模态融合特征焦点损失函数文本特征向量协同注意力操作界面语义矩阵消息特征图像加权特征智能决策技术意图识别装置结构特征提取