基于多模态融合的操作意图识别方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态融合的操作意图识别方法、系统、设备及介质
申请号:CN202511368523
申请日期:2025-09-24
公开号:CN120873982A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及数据处理技术领域,具体提供一种基于多模态融合的操作意图识别方法、系统、设备及介质,包括:同步采集用户的至少两种模态的交互数据,所述模态包括手势、语音和眼神注视中的至少两种;对所述交互数据进行对齐处理,包括时间同步和空间映射至统一坐标系;分别从对齐后的各模态数据中识别出结构化语义信息,包括手势类型、语音文本和注视点坐标;基于预设的语义规则和上下文记忆,对所述结构化语义信息进行语义关联与指代消解,得到操作意图。本发明有效克服了单模态交互不自然、易歧义及容错性差的固有缺陷。
技术关键词
意图识别方法 手势 多模态 语音识别模型 注视点 语义规则 记忆 坐标系 时空图卷积神经网络 物体 自然语言理解模型 降级策略 时间同步 深度神经网络 三维卷积神经网络 数据 意图识别系统