多模态融合交互大模型
概述
多模态融合交互大模型
需求详情
1、希望解决的主要技术问题: 多模态融合交互大模型通过多种硬件设备(包括话筒、眼动追踪仪、手势传感器等)采集多模态数据(包括声音、文本、明动、手势等),通过多模态大模型实现复杂车载环境下的用户意图理解与响应。 2、需求提出背景及主要应用领域方向: 在面向复杂环境无人车操控方面,多模态人机交互技术支持语音、按键、触屏、手势、视线等多种交互方式,通过多种交耳方式融合,能多维提取用户交互意图,利用各通道优势互补,弥补单通道识别准确率和交互效率不高的问题,也能平衡感官通道之间的使用负担,减轻无人车操控人员的认知负担,使其能够投入更多注意力到决策中。可部署在有人车或单人便携使用,具备对无人车通用化操控能力,有较强的实用性和推广性。 3、技术难点: (1)多模态融合交互的准确性需达到 95%以上; (2)具备声纹识别功能,识别准确率达到 90%以上; (2)需具备对用户自然交互意图的分析与理解能力; (3)适配国产化智能计算平台,完成本地化部署。 4、对主要技术指标、成本、周期等有关要求: 主要技术指标: ①具备语义理解功能,可对用户视觉注意力区域的视频图像信息进行语义分析,理解视觉场景的结构化关系; ②具备知识库检索与更新功能,可对文档、规则、协议、操作习惯等知识库进行检索,并可根据用户输入,动态更新知识库; ③具备自然语音识别和结构化语音指令识别功能,其中自然语音识别准确率≥90%,结构化指令识别准确率≥95%,语音识别延时≤0.5秒; ④具备语音合成功能,支持将文字信息转换为自然流畅的语音输出,语音合成模型支持以汉语为主并混合英语短语的跨语言合成,支持合成音色、语速设置。 ⑤具备多模态融合交互功能,实现语音、手势、眼动、头动等多模态交互指令的融合,生成格式化的指令或文本消息; ⑥具有用户意图理解功能,可根据声音、文本、眼动、手势等交互输入推理用户操作意图,理解用户下达的模糊指令,生成格式化的指令或文本消息; ⑦具备操作推荐功能,为用户提供多样化可选操作推荐,简化用户操作流程; ⑧用户多模态融合交互意图识别准确率≥95%; ⑨ 多模态融合交互意图识别延时≤1秒。
征集中
金额:10.0万元-150.0万元