环境感知语音合成方法、装置、计算机设备及存储介质

申请号：CN202511239804

申请日期：2025-08-29

公开号：CN120932628A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于医疗健康及金融技术领域，公开了环境感知语音合成方法、装置、计算机设备及存储介质。所述方法包括：获取参考语音、目标环境音、目标文本以及环境感知值；将所述参考语音、所述目标环境音、所述目标文本以及所述环境感知值输入至合成模型中，由所述合成模型通过文本编码层转换文本为向量序列并对参考语音应用掩码策略，处理环境感知值与时间步嵌入以调控目标环境音强度，以进行带环境感知的语音生成，形成环境感知语音；输出环境感知语音。通过实施本发明实施例的方法可实现显著提升环境感知语音合成的自然度和真实感，特别是在远程医疗咨询和金融客服系统中提供更清晰、更自然的语音交流体验。

技术关键词

语音流匹配方法掩码策略转换文本计算机设备三元组编码远程医疗咨询多层感知机序列强度客服系统音频人工智能技术医疗健康网络处理器金融真实感