思维链与思维模态辅助语音生成方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
思维链与思维模态辅助语音生成方法、装置、设备及介质
申请号:CN202511492013
申请日期:2025-10-20
公开号:CN120977289B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种思维链与思维模态辅助语音生成方法、装置、设备及介质,包括:接收源文本和用于指定情感表达的文本提示,将文本提示输入语言模型,生成情感控制向量,基于思维链机制处理源文本,生成音素序列,基于思维模态机制处理情感控制向量,生成音频特征序列,对音素序列和音频特征序列进行时间对齐操作,生成时间对齐序列,将时间对齐序列输入语音解码器,生成语音波形。本发明通过结合思维链机制与思维模态机制,打破了传统基于固定情感标签或预设控制参数的限制,实现了以自然语言灵活指定语音情感表达,提升了语音合成的自然性、表达的细腻性以及情感控制的自由度。
技术关键词
音频特征 语音生成方法 序列 语音解码器 生成语音 声学特征 文本 生成程序 波形 机制 接收源 语义特征 生成装置 计算机设备 分析模块 符号 多模态 标记 医疗健康