一种端侧语音交互方法及装置

申请号：CN202511244567

申请日期：2025-09-02

公开号：CN120977295A

公开日期：2025-11-18

类型：发明专利

摘要

本发明涉及一种端侧语音交互方法，属于语音交互技术领域，该方法包括：在端侧设备上，利用压缩感知技术在语音采集端进行亚采样重构语音信号；将重构得到的语音信号输入脉冲神经网络模块提取情绪相关脉冲特征；将情绪相关脉冲特征输入轻量分类网络进行分类；自动语音识别模型将重构得到的语音信号转写为文本内容，文本内容作为自然语言处理大模型的输入，利用预训练语言模型或接入大模型平台进行语义解析与分类后的情绪交叉建模输出语义情绪标签；采用FastSpeech2‑Lite与HiFi‑GAN Mini的联合方法，将语义情绪标签与文本内容转化为具有相应情感的语音输出。本发明实现离线、低功耗的情感语音识别与合成。

技术关键词

语音交互方法脉冲特征重构语音信号预训练语言模型压缩感知技术自动语音识别分类网络稀疏系数向量语义文本自然语言 Softmax函数标签语音交互技术语音交互装置云端输出模块