基于声学特征Logit分布动态边界与时序建模的语音识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于声学特征Logit分布动态边界与时序建模的语音识别方法
申请号:CN202510888892
申请日期:2025-06-30
公开号:CN120472889A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法,包括:步骤1,构建语音识别训练所需的数据集,将数据集划分为训练集、验证集和测试集;步骤2,对音频文件和标注进行数据清洗;步骤3,统计数据集中的标注生成词表;步骤4,构建语音识别模型;步骤5,使用训练集对步骤4构建的语音识别模型进行训练,训练结束后使用验证集评估语音识别模型训练过程中的性能变化;步骤6,将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐,通过长短时记忆网络时序建模优势融合特征,减少空白语音、长停顿对语音识别的影响。
技术关键词
语音识别方法 声学特征 构建语音识别模型 语音识别训练 融合特征 时序 音频文件采样率 编码器 动态 词典 多头注意力机制 数据 优化器 标记 训练集 频谱特征 音频特征
系统为您推荐了相关专利信息
社交媒体情感分析方法 融合情感特征 情感类别 极性调制 融合特征
神经架构搜索 医学图像配准方法 神经网络架构 融合特征 空间模块
交互视频 人交互方法 大语言模型 客户端 节点
文章生成方法 融合特征 多张图像数据 视觉特征提取 文本
关键帧 隧道 视频采集模块 图像处理单元 多模态数据融合