基于语音控制的多模态智能终端AI语音唤醒方法和装置

申请号：CN202511376125

申请日期：2025-09-25

公开号：CN120853549A

公开日期：2025-10-28

类型：发明专利

摘要

本发明涉及语音分析技术领域，具体涉及基于语音控制的多模态智能终端AI语音唤醒方法和装置，包括：利用语音模型提取每个语音样本的特征，利用视频模型提取每个面部动作样本的特征；包含唤醒语音的语音样本的记为正样本，不包含唤醒语音的语音样本记为负样本，利用正、负样本对应的面部动作样本的特征更新语音模型的参数以及更新正、负样本对应的面部动作样本，然后利用更新后的面部动作样本更新视频模型的参数；并重复上述参数更新过程。本发明在不显著增加模型参数的前提下，实现复杂且多变的语音环境下高效、准确的语音唤醒功能。

技术关键词

AI语音样本唤醒方法智能终端生成向量视频面部关键点检测参数语音分析技术语音唤醒功能麦克风曲线直方图唤醒装置人脸相机处理器