
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
AIGC的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式AI应用。更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI加速服务器再次被拉到了大众的聚光灯下。
“不学点AI找不到工作了?”AI带来的焦虑正在不断蔓延。 一位坐标北京的资深卖房中介林阳,已经开始自学AI大模型了。
大SOTA有大红利,垂类SOTA也有垂类红利。在尚未被超越的这段时间,SOTA企业必须像OpenAI一样,紧紧抓住红利窗口。
AI带来的改变是,广告工业环节的重构,成本的重构。
最近AIGC的落地,又有了一些热议和争论。
AI的颠覆性到底在哪里?就仅止于内容生成么?如果我们现在已经被各种应用充斥的生活会因为它而改变,到底会改变成什么样子?
众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。
2022年底起,从AI生成文字、代码,到AI生成图片、声音,甚至是视频,AIGC(人工智能生成内容)蓬勃发展。我们一面憧憬着AI大幅提高效率,“因材施教”的个性化教育能得到普及,一面又担忧着AI产生的幻觉及物理性错误,会误导“活到老,学到老”的我们。
汤姆猫是移动互联网时代的典型应用代表,凭借硬件或者系统的新功能,迅速出一个有一定可玩性但没有长期留存的会蹭上热度的 app。而在当下的 AGI 时代,也有很多类似汤姆猫的应用,但要不要做汤姆猫,以及如何看待汤姆猫,心资本 Soul Capital 合伙人吴炳见提出了自己的看法。