思维链与思维模态辅助语音生成方法、装置、设备及介质
申请号:CN202511492013
申请日期:2025-10-20
公开号:CN120977289B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种思维链与思维模态辅助语音生成方法、装置、设备及介质,包括:接收源文本和用于指定情感表达的文本提示,将文本提示输入语言模型,生成情感控制向量,基于思维链机制处理源文本,生成音素序列,基于思维模态机制处理情感控制向量,生成音频特征序列,对音素序列和音频特征序列进行时间对齐操作,生成时间对齐序列,将时间对齐序列输入语音解码器,生成语音波形。本发明通过结合思维链机制与思维模态机制,打破了传统基于固定情感标签或预设控制参数的限制,实现了以自然语言灵活指定语音情感表达,提升了语音合成的自然性、表达的细腻性以及情感控制的自由度。
技术关键词
音频特征
语音生成方法
序列
语音解码器
生成语音
声学特征
文本
生成程序
波形
机制
接收源
语义特征
生成装置
计算机设备
分析模块
符号
多模态
标记
医疗健康