摘要
本发明涉及智能决策技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种基于多模态融合的意图识别方法、装置、设备及介质,包括:提取操作界面的界面文本与界面图像;提取界面文本的文本语义特征向量,提取界面图像的设计模式结构特征及点云结构特征;利用空间注意力矩阵将设计模式结构特征与点云结构特征融合,得到结构融合特征向量;将结构融合特征向量与文本语义特征向量进行融合,得到多模态融合特征;对分类模型进行训练,输出用户意图识别模型,并利用用户意图识别模型对多模态融合特征进行意图分析,得到意图类型;根据意图类型及预先获取的操作消息确定目标用户的操作意图。提升用户真实意图识别时的准确性。