一种音频文本对齐方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种音频文本对齐方法、装置、设备及存储介质
申请号:CN202510526402
申请日期:2025-04-25
公开号:CN120104759B
公开日期:2025-08-01
类型:发明专利
摘要
本申请公开了一种音频文本对齐方法、装置、设备及存储介质,涉及语音处理技术领域,包括:获取初始音频数据和相应的转录文本,获取初始音频数据对应的节奏变化率指数,并对转录文本进行语义分析,以获取各初始语义单元的重要程度;根据重要程度确定出目标语义单元,并将各目标语义单元与初始音频数据进行初步匹配,以确定各目标语义单元对应的锚点位置;基于节奏变化率指数为初始音频数据分配时间戳,以获取相应的目标音频数据,基于各锚点位置将目标音频数据划分为不同音频片段,并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐,保证了音频和文本的对齐精度。
技术关键词
音频 语义 对齐方法 文本 数据 指数 话题 锚点 语音 节点 复杂度 动态地 句法结构 对齐装置 密度 对齐模块 核心 风格 分析模块 可读存储介质