基于声学特征Logit分布动态边界与时序建模的语音识别方法

申请号：CN202510888892

申请日期：2025-06-30

公开号：CN120472889A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法，包括：步骤1，构建语音识别训练所需的数据集，将数据集划分为训练集、验证集和测试集；步骤2，对音频文件和标注进行数据清洗；步骤3，统计数据集中的标注生成词表；步骤4，构建语音识别模型；步骤5，使用训练集对步骤4构建的语音识别模型进行训练，训练结束后使用验证集评估语音识别模型训练过程中的性能变化；步骤6，将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐，通过长短时记忆网络时序建模优势融合特征，减少空白语音、长停顿对语音识别的影响。

技术关键词

语音识别方法声学特征构建语音识别模型语音识别训练融合特征时序音频文件采样率编码器动态词典多头注意力机制数据优化器标记训练集频谱特征音频特征

系统为您推荐了相关专利信息

一种基于自适应情感特征的多模态社交媒体情感分析方法

社交媒体情感分析方法融合情感特征情感类别极性调制融合特征

一种基于贝叶斯神经架构搜索的跨模态医学图像配准方法及系统

神经架构搜索医学图像配准方法神经网络架构融合特征空间模块

一种基于大语言模型的数字人交互方法及装置

交互视频人交互方法大语言模型客户端节点

一种低成本的多模态文章生成方法

文章生成方法融合特征多张图像数据视觉特征提取文本

一种隧道涌水突泥检测方法、系统及介质

关键帧隧道视频采集模块图像处理单元多模态数据融合