基于声纹辨别并与多人面对面交流的AI数字人装置及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于声纹辨别并与多人面对面交流的AI数字人装置及方法
申请号:CN202510630345
申请日期:2025-05-16
公开号:CN120162601A
公开日期:2025-06-17
类型:发明专利
摘要
本申请公开了一种基于声纹辨别并与多人面对面交流的AI数字人装置及方法,通过麦克风阵列接收来自不同方向的声音信号,并通过红外测距传感器精确测量发言者与装置的距离,同时借助微型摄像头进行面部跟踪,确保了每个发言者的位置和眼睛位置能够被精确捕捉。其次,波束成形算法和RNNoise降噪模块的结合,使得装置能够从复杂环境中准确提取目标发言者的声音,并去除背景噪音,提升语音清晰度。通过梅尔频率倒谱系数和ECAPA‑TDNN深度学习模型对语音特征的高效提取,系统能够实现高精度的声纹识别,结合哈希表存储方式,快速对比发言者的声纹特征,进一步增强了识别准确性。
技术关键词
发言者 麦克风单元 梅尔频率倒谱系数 波束成形算法 声纹特征 显示屏 人脸特征信息 发言人 深度学习模型 降噪模块 麦克风阵列 微型摄像头 动画 哈希表 语音特征提取 红外测距传感器 高维特征向量
系统为您推荐了相关专利信息
实时监测方法 教师 多模态 教学 序列模式识别
声纹特征 克隆系统 风格 语义 声谱
客车卫生间 安全监控系统 安全监控方法 多传感器融合 红外热成像传感器
压电式振动传感器 信号 GIS局部放电 矩阵 电磁
声音克隆方法 翻译耳机 高保真麦克风 频谱压缩方法 高频段