
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。
来自主题: AI资讯
5790 点击 2025-07-06 11:25