基于语音控制的多模态智能终端AI语音唤醒方法和装置
申请号:CN202511376125
申请日期:2025-09-25
公开号:CN120853549A
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及语音分析技术领域,具体涉及基于语音控制的多模态智能终端AI语音唤醒方法和装置,包括:利用语音模型提取每个语音样本的特征,利用视频模型提取每个面部动作样本的特征;包含唤醒语音的语音样本的记为正样本,不包含唤醒语音的语音样本记为负样本,利用正、负样本对应的面部动作样本的特征更新语音模型的参数以及更新正、负样本对应的面部动作样本,然后利用更新后的面部动作样本更新视频模型的参数;并重复上述参数更新过程。本发明在不显著增加模型参数的前提下,实现复杂且多变的语音环境下高效、准确的语音唤醒功能。
技术关键词
AI语音
样本
唤醒方法
智能终端
生成向量
视频
面部关键点检测
参数
语音分析技术
语音唤醒功能
麦克风
曲线
直方图
唤醒装置
人脸
相机
处理器