# 热门搜索 #
搜索
成立不足两年,融资8000 万美元,晋升独角兽行列,这款 AI 语音克隆应用到底有多强?
8727点击    2024-01-26 11:09


又一个只有很少的员工,创造出 10 亿美元独角兽企业的故事诞生了。


这两天,ElevenLabs 紧随着自己融资 8000 万的新闻,在 X 上接连发了一则招聘启事和一条宣传片,以将自己的团队规模,从 40 人扩大到 100 人。



原版视频是英语,我们用 ElevenLabs 做了一个中文版,全程耗时 5 分钟:



产品本身不是什么新出的产品,ElevenLabs成立于 2022 年,像是文字转语音和语音克隆功能也是 2023 年出的。这次伴随融资新闻和宣传片的传播,让这家公司彻底被大众所熟知。


用ElevenLabs做了个李云龙的 Demo,大家感受下:


“You're the fucking political commissar, with eyes like a cow's balls,

who the fuck snitched on me?”


产品页面目前看起来简洁且清晰,全都集中在左上角:



开头的视频号我们就是直接用视频多语言翻译(Dubbing)这个功能做的。


具体步骤比把大象装冰箱都要简单:


1、粘贴你想翻译的视频的链接(甚至都不用下载);

2、选择源语言和目标语言,并点击 Create。


然后……等待大概 3 分钟左右,Done。



这时候生成的视频,就已经可以使用了,但也可以进一步编辑。


在编辑页面可以重新选择说话人的声音,通过多条音轨,每句话是由谁说的都可以自己设定。



能通过设置三个选项对声音进行微调:


1、Stability 代表稳定性,这个参数的高低,会影响语音语调的变化。过高会有些死板,过低会不够稳定。

2、Similarity 代表着相似程度,越高就越像源声音,但过高也会出现一些莫名其妙、并不存在的声音。

3、Style 代表语音的风格,与上传的音频相比,数值越高风格越夸张。设置成 0 会提高生成速度。


在这个产品里,只有这三个参数是通过数据调节。



目前体验下来,这款产品在中文上的表现,基本上跟现实里外国人说中文的感觉一模一样,这种差异在赛博世界也难以避免。


而且还会有一些非常诡异的 BUG,比如说驴(lv)会读成路(lu)。


不过,刚才我们使用的语音克隆,都是即时语音克隆模式,当付费到Creator级别(每月 22 美元)以后,可以解锁专业声音克隆模式(Professional Voice Cloning)。



在这种模式下,光看这些需求,一股名为“专业”的感觉就扑面而来:


1、 提交声音后需要等待 4 周才能使用克隆的声音

2、尽量使用专业录音设备进行录制;

3、录音时建议使用防喷罩;

4、在经过声学处理的房间里进行录制;

5、需要录制至少 30 分钟,最好 3 个小时的声音素材等。



Google 网页翻译


我提交了 30 分钟的我自己的声音素材,当然也并没有他说的哪些专业设备,就是想看看 4 周以后看看会有什么更厉害的效果。到时候再给大家汇报。


目前ElevenLabs支持 29 种语言,除了中文都还可以。国内目前也已经有了一些类似的产品,但还没听说有哪一款特别爆火。如果有哪些很好用,也希望各位推荐安利一波。


先不说任何商用的场景,就只说整活上,这种克隆语音的加入可以说能完全改变 B 站鬼畜区的格局了。简单做了个小鬼畜:



文章来自于微信公众号 “硅星人Pro”,作者 “椰子



关键词: ElevenLabs , AI语音 , AI声音
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner