ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
三只羊卢总的录音AI到底能不能做出来?我的答案是:当然能。
8017点击    2024-09-27 10:39

今天凌晨,N多人给我发了一张图,说警方通报了,问我到底怎么看三只羊录音是不是AI这事。



还有朋友跟我说,有个号称国内AI第一人的,之前信誓旦旦的说这录音必不可能是AI,AI做不出来。所以这个通报背后,会不会背后是有些阴谋论?


我差点都喷了,国内AI第一人?我第一反应是院士也下场参加这种无聊的事了?


然后查了一下...哦.....算了不提了。


我觉得我有必要科普一下,就是AI到底能不能做到三只羊卢总录音级别?


我可以明确的给你一个回答,是:能。


先简单说下前情提要。


三只羊跟辛巴有一段乱七八糟的风波,反正就是互相掐架,你来我往,好不热闹。


然后风波正甚时,三只羊董事长卢文庆的一段炸裂的录音被全网疯传。


就是这个,我做了删减,其中一些不雅片段我也全部消音处理了。



内容炸裂不堪入耳,信量极大且内容十分惊人,其中涉及权斗、出轨等等等,总结一下就是卢总自爆和三只羊所有女主播有过不正当的关系。还点名看不起张一鸣。。。


大概就是这么个事,然后三只羊就举报了,说这录音是AI合成的。


网上就吵得不可开交了,大部分人最大的理解就是,AI做不出来这种级别的录音,为什么?因为那个“国内AI第一人”说的。


这段录音听着很真实对吧,有情绪有方言有杂音,所以问题其实就是两个,这段录音,到底是不是AI做的?以及,AI到底能不能做到这种级别的录音?


第一个问题,今天已经有了答案,我永远无条件相信我们的公安,他们发布的通报,我也相信就是事实,这个没有任何可以争议的。所以第一个问题的答案相当明确,那就是AI做的。


那么第二个问题,最关键的来了,AI到底能不能做到这种级别的录音。


我的答案,当然能。


首先,我需要在这里科普一下,AI是个大类,而在细分里面还有很多赛道。


有语言大模型(GPT、Claude、豆包等等),有AI绘图(MJ、SD、FLUX等等),有AI音频(11Labs、SVC、GPT-Sovtis、Suno等等)、有AI视频(Runway、可灵、豆包、Pixverse等等)、有AI 3D(TripoAI、Meshy等等)。


而AI音频里,又分为AI生成音乐、AI生成音效、声音克隆。


这个录音,属于声音克隆这个赛道里面的。


所以不要说AI能做出来这个就比OpenAI比ChatGPT还要牛逼,都不是一个赛道的,有啥可比的,就像你说哇这个洗衣机洗衣服真牛逼,比那个冰箱还要牛逼。。。


而声音克隆,又分为两种:TTS(文本生成语音)、SVC(AI换声)。


TTS就是给一段一个人的人声,只要几秒几十秒的素材,就能训练一个AI模型,然后直接用文字就能生成特定人声音音频的语音合成,现在最好的开源项目应该是GPT-sovits。



SVC你就可以通俗的理解成AI换声,就是AI时代的变声器。现在AI变声器领域三个扛把子项目:So-vits-svc、RVC、DDSP。



OK,现在清楚在AI声音克隆领域,也有两种手段来实现声音伪造了吧。


TTS项目,优点是数据要求短,5秒的音频素材就行,就能克隆你的声音,后续只要给文本就能生成音频,成本极低效果极快。但是缺点就是,情绪、停顿、真实度的上限都很低,听个几十秒,就能非常轻松的听出来哦这个是AI味道。


而之前,大家觉得AI做不了卢总的音频伪造,都是先入为主的带入了TTS的思路,觉得一定是用TTS做出来的。


非常坦率的讲,TTS做卢总这种级别的音频,就我所知道的市面上公开的产品(不包括各大公司内部实验室的项目),确实有点难。


但是,思路打开,TTS做不了这个,但是SVC呢?


SVC的缺点,就是成本高,需要起步30分钟的音频数据集,然后跑几个小时的炼丹训练这个人的人声模型,最后还需要再找一个人录一段音频,再用SVC换声,把音色替换过去。


而优点就非常的直白了,这玩意能保留说话人的所有情绪、停顿、语气、方言等等等等,质量上限约等于无限,只要模型好,你根本听不出来这到底是不是AI的。


连歌声都可以无缝换声,换你个说话声音,简直就是个小case了好吧。


去年爆火的AI孙燕姿,就是拿svc做的。



我也写过好几篇关于SVC的教程。


用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程


AI唱歌之终极喂饭教程 - SVC的极限就在这了


也给大家听一下,我用SVC换声后,用我自己的声音替换李荣浩的模特的效果。



这是AI直出,我只加了背景音乐。


这就是SVC。


所以用SVC做卢总的AI音频伪造,步骤也很简单。


1. 从网上收集卢总的30分钟左右说话数据,这个很好找,毕竟他是名人。


2. 用SVC或者RVC,把卢总的声音清洗完,训练成一个AI模型。


3. 卢总是安庆人,合肥那边安庆人很多,找一个跟他口音差不多的,把需要合成的音频自己先念一遍。


4. 最后用SVC的AI模型,把念完的音频替换成他的声音。


女声同理。


至此,完毕。


如果你还想听着真实一点,就用剪映啥的加点风噪环境音,太多了,随便找,你要环境音,传统音频软件能处理,当然,你也可以拿着带环境音的数据集进去训练,虽然我不推荐这么做。。。


特别是原视频那个方式,是把录音发到手机上,再用手机播放,用另一台手机来录,本身环境音就一堆了,还夹在着哥们背景笑声,乱七八糟的。这都属于场外因素了。。。


所以,回到第二个问题,AI能不能做卢总那种的伪造录音?当然能。


不要把AI想的太神话,也别把AI想的太垃圾,人工智能,很多时候是人工+智能。


现在的TTS,解决不了情绪问题,那为啥非要让AI去搞定情绪?


你人工念完了换音色不就行了?这就是人工+智能。


思路打开,不要太局限。


AI是你的助手,是辅助工具,是让你用的,不是让你啥都甩给他当甩手掌柜的。


最后,我想声明一下。


我写下这篇文章,不是让大家去知道这个技术,而去犯法,做一些法外之事,成为法外狂徒。


而是希望做一个关于AI音频的小小科普,抹平信息差,让大家知道有这么个技术,上限就在这,不要觉得AI做不到就可以掉以轻心。而是要知道,现在的AI,可以达到什么地步,什么水平。


在人工+智能的加持下,能做到什么事情。


科技的进步是不可逆的,所有人都是这巨大洪流中的一滴水,只会被裹挟着前行,知道永远比不知道好,知己知彼,方能百战不殆。


我们学习很多东西,学习AI,很多时候,是为了保护我们自己。


还有,保护我们的家人。


然后,更好的生活。


文章来自于“数字生命卡兹克”,作者“卡兹克”。




关键词: AI , AI录音 , AI声音 , AI声音伪造
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales