音素对齐方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
音素对齐方法、装置、设备及介质
申请号:CN202510213529
申请日期:2025-02-24
公开号:CN119832928B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能领域,提供了一种音素对齐方法、装置、设备及介质,方法包括:基于预先获取到的汉字序列确定汉字序列的文本特征;通过声学模型提取与汉字序列对应的音频信息的时频特征;通过强制对齐模型及时频特征对汉字序列及音频信息进行时间步长对齐,得到对齐后音频特征;对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征;通过音素解码模型获取与联合嵌入特征对应的音素序列。本发明实施例可通过对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征,实现精准捕捉发音规律,适应复杂的实际场景需求;本发明实施例还可通过音素解码模型获取与联合嵌入特征对应的音素序列,实现提高音素对齐的准确性及鲁棒性。
技术关键词
嵌入特征 对齐方法 音频特征 汉字 序列 解码模型 文本 偏差 解码模块 处理器 对齐装置 注意力机制 字符 可读存储介质 存储器 鲁棒性 发音 电子设备