摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融技术领域,公开了环境感知语音合成方法、装置、计算机设备及存储介质。所述方法包括:获取参考语音、目标环境音、目标文本以及环境感知值;将所述参考语音、所述目标环境音、所述目标文本以及所述环境感知值输入至合成模型中,由所述合成模型通过文本编码层转换文本为向量序列并对参考语音应用掩码策略,处理环境感知值与时间步嵌入以调控目标环境音强度,以进行带环境感知的语音生成,形成环境感知语音;输出环境感知语音。通过实施本发明实施例的方法可实现显著提升环境感知语音合成的自然度和真实感,特别是在远程医疗咨询和金融客服系统中提供更清晰、更自然的语音交流体验。