基于多模态融合的智能拾音与语音识别系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态融合的智能拾音与语音识别系统
申请号:CN202511487235
申请日期:2025-10-17
公开号:CN120954408A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了基于多模态融合的智能拾音与语音识别系统,涉及人工智能与语音识别交叉技术领域。系统包括主控制模块、多个拾音节点和多模态融合引擎,其中多模态融合引擎包含声源定位与分离、环境自适应降噪、跨模态特征融合及动态上下文理解四个核心组件。通过阵列麦克风与辅助传感器组采集多模态数据,系统实现声源定位与分离、动态环境噪声抑制、多模态特征深度融合以及上下文语义校正。本发明有效提升语音识别的鲁棒性、准确率及智能交互能力,在噪声环境、口音变化等复杂场景下改善语音交互体验,为智能语音交互设备提供更可靠的语音处理解决方案。
技术关键词
语音识别系统 动态上下文 阵列麦克风 智能语音交互设备 独立分量分析方法 低功耗广域网技术 注意力机制 噪声功率谱估计 多模态特征 智能交互能力 梅尔频率倒谱系数 环境噪声抑制 跨模态 感知线性预测 语音特征 编解码器 优化器