
仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改
仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改零样本、仅听3秒提示音频,即可1:1复刻人声。
来自主题: AI资讯
8673 点击 2024-04-14 11:21
零样本、仅听3秒提示音频,即可1:1复刻人声。
SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。