摘要
本申请涉及到语音识别技术领域,公开了一种多意图处理方法、装置、设备及介质,其中方法包括:首先基于预设命令词生成含同义表述的文本语料,经语音合成转换为音频语料,构建“文本‑音频”配对的泛化数据集;接着以该泛化数据集为训练数据,联合训练共用特征提取网络的语音识别模型与自然语言理解模型,输出语音意图和文本意图;再设置三类队列,存储并同步语音意图至结果队列,验证后存储文本意图,基于时间戳与意图来源对结果队列进行冲突检测处理;最后通过语音活动检测判断输入终止,输出结果队列全部意图并清空队列。该方法支持用户自由表述命令,可连续处理多意图,简化交互流程,提升交互灵活性与便捷性,改善用户体验。