基于多模态融合的操作意图识别方法、系统、设备及介质
申请号:CN202511368523
申请日期:2025-09-24
公开号:CN120873982A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及数据处理技术领域,具体提供一种基于多模态融合的操作意图识别方法、系统、设备及介质,包括:同步采集用户的至少两种模态的交互数据,所述模态包括手势、语音和眼神注视中的至少两种;对所述交互数据进行对齐处理,包括时间同步和空间映射至统一坐标系;分别从对齐后的各模态数据中识别出结构化语义信息,包括手势类型、语音文本和注视点坐标;基于预设的语义规则和上下文记忆,对所述结构化语义信息进行语义关联与指代消解,得到操作意图。本发明有效克服了单模态交互不自然、易歧义及容错性差的固有缺陷。
技术关键词
意图识别方法
手势
多模态
语音识别模型
注视点
语义规则
记忆
坐标系
时空图卷积神经网络
物体
自然语言理解模型
降级策略
时间同步
深度神经网络
三维卷积神经网络
数据
意图识别系统