ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
三只羊“财色录音”是假的,但背后技术是真的恐怖
6818点击    2024-09-29 14:04

别光想着说 “ 技术无罪 ” ,上个这么喊的人已经蹲了好多年,现在都出来了。


要说这段时间哪家公司风头正盛,那非三只羊莫属,隔三差五就要上一回新闻,还是法制栏目的那种。


这不前几天,月饼门的事件还没过去,又来了个录音门。


事情是这样的, 9 月 20 号的时候网上突然流传出了一段,疑似三只羊高管卢某的录音。


录音里涉及到了多位三只羊的女主播,具体内容咱在这就不多做讨论了,但确实很炸裂。。。



录音爆出来后,就在网上迅速引起了一波热度。有人说这段录音纯纯是男的喝多了吹的牛逼,但讨论的风向很快又变成了这玩意儿,到底是不是 AI 生成的,甚至还钓出来不少所谓的 AI 行家,开始一顿分析。


结果没两天,警方的通报就出来了:都散散吧,是 AI 干的。



而这次事件的另外一位主角, Reecho 睿声公司也终于浮出了水面,锤了自己的用户一把。



有意思的是,即使是官方都出面了,但还是有网友觉得卢某是 “ 酒后吐真言 ” ,通报也不过是把锅,甩给了没法儿自证的 AI 。


但不管咋说,人官方调查通报都出来了,你信也好不信也罢,这事儿就这么定调了。


不过以差评君对 AI 语音的了解,像三只羊录音门这种情况,的确是有可能的。主要是现阶段的 AI 语音技术,确实已经挺成熟的了。



因为我们只需要上传一两句话,剩下的直接甩给 AI 就行,分分钟就能克隆一个人的音色。


这么说吧,现在 AI 语音合成里比较常见、开源项目也比较多的,就数TTS 、 SVC&RVC 两大类技术。



所谓 TTS ,简单来说就是Text To Speech ,把文本转化成语音。像很多 AI 数字人、有声书、视频配音,大伙儿刷抖音经常听到的 “ 注意看,这个男人叫小帅 ” ,还有剪映素材库里那些 TVB 女声、广西表哥。。。基本都是 TTS 干的。


像这次三只羊录音门牵扯到的 Reecho 睿声,也是一个 TTS 模型的生成网站。咱们其实也在他们网站上,克隆过差评君的声优蛋蛋的声音,大伙儿可以听听看到底像不像。



上来先用《 意大利面拌 42 号混凝土 》的 “ 名篇节选 ” 整一波,你别说,你还真别说。音色的复刻程度能有个 80%-90% ,而且说话的语气也贼像,不仔细听还以为在做什么正经科普。


我们本来还想借着 AI 差评君给大伙儿送一波福利,但没想到这个 AI 小小翻车了一下, 10 台 iPhone 16 说成了 “ 一零台 iPhone sixteen” 。。。穿帮的实在是太明显了,这福利想送都送不出去呀,可惜可惜。


借 AI 的口,你甚至还能听到差评君管广大差友们借钱。就连国庆节自愿加班 7 天,还不要加班费这种话,从这位 “AI 差评君 ” 的嘴里说出来,你也能听出心甘情愿的味道。


除此之外,人家那个声音市场里还可以自己选训练好的声音 AI ,不仅有我们的好朋友影视飓风 Tim ,甚至还有主播电棍,坤哥和派蒙,就连五星评论家麦克阿瑟也能拿来用。



有一说一,这种程度的克隆已经相当逼真了,所以现在回头看三只羊录音门,好像 AI 参与的可信度又高了一点。而有些朋友可能还觉得,那这个 AI 怎么就能把那种醉意、含糊不清的话都模拟出来呢?


这就得说到 SVC&RVC 了。这里面 SVC ( Singing Voice Conversion )是用来唱歌的,而 RVC ( Retrieval-based-Voice-Conversion )的场景多用在直播,这俩都是实时把语音转换成 AI 训练的音色,俗称变声器。


由于输入的是音频,所以它就能把一个人的声音转化的更真实,甚至连语气、声调这些东西都可以转化得很自然。如果是歌声转换,甚至还能模仿音色和唱腔。


像 GitHub 上有个叫 So-Vits-SVC 的开源项目,就一手打造了AI 孙燕姿、唱《 泪桥 》比原唱伍佰还好听的陶喆。



类似的开源项目还有很多,而且都很好上手。举个例子, b 站的大佬 “ 花儿不哭 ” 今年就上线了一个开源模型 GPT-SoVITs ,下载好直接拿语音喂就行了。


你要懒的自己训练,那还可以在魔搭社区用 “xz 乔希 ” 的项目直接开玩;甚至剪映和必剪这些剪辑软件里都已经用上了自家的 AI 语音,除了那些营销号语音你也可以生成自己的。


乃至于随便找个工具集合网站一搜,多得是可以直接上手用的产品。



我们之前用 “ 花儿不哭 ” 开源的 RVC 实时变声算法,也做过一个差评君变声器。



甚至还专门做了一个非常差评的初始界面。



至于效果大伙儿自个儿品吧,我打包票,这绝对不是隔壁差评君的声优蛋蛋录的。


而且当时我们还专门给变声器做了个硬件外挂,现在还搁办公室里呢。



人在这边对着麦说话,音响那边实时就能把声音变成蛋蛋的。


看起来挺牛逼是吧,不过这玩意也不是突然就这么先进了。


主要语音生成这一块确实低调,你就说这几年这些 AI 的宣传,一个个都好像是奔着炸裂全宇宙去的。三天两头画大饼,谁还惦记语音生成是怎么个情况。


关注的人少,再加上技术积累也多,那可不就是闷声发大财嘛。只不过现在突然出圈了,大家才感觉到惊奇。


说到底还是 AI 时代这些东西的门槛都降低了,你想 cos 哪个人的声线都相当方便。



不过实话,技术进步是一回事儿,但就事论事地说,用这玩意儿来违法犯罪的案例,并不在少数。


也不是咱制造啥恐慌,新华网去年九月就报道过了相关的诈骗手段,你想想家里年纪大的老人,要是接到跟你说话声音一模一样的诈骗电话,说你遇到了危险,会不会把棺材本都给骗子骗走?



不止国内,这事在国外照样有,就连美国知名密码管理工具公司 LastPass 的 CEO ,都被伪造声音拿去诈骗了。



尽管现在已经有不少机构在琢磨怎么处理安全问题,探索怎么识别伪造语音等证据,比如有研究表明,目前可以通过算法声纹认证和语音取证等办法,对 AI 合成语音进行鉴别。


但这些更多还是在找 AI 语音上的 bug 来鉴定的,就好像数手指和穿模来鉴定 AI 图片一样,只要模型一升级,这些办法可能就也没辙了。



不过差评君觉得,要从根本上解决问题,就还得从生成式模型本身出发。


给 AI 生成的图片、音视频也打上类似水印的标记,同时设备和软件也能够检索到这些标签,提醒大家这些内容并非真实。


像是谷歌就已经开始研究在 AI 生成的音频声谱上,添加能被视觉化的特定标记,这样既不会影响用户听感也方便识别。



总的来说,在生成式 AI 的影响下,以后眼见不一定为实,耳听也可能为虚。归根结底技术在发展的同时,防范技术滥用的对策也必须做好。


别光想着说 “ 技术无罪 ” ,上个这么喊的人已经蹲了好多年,现在都出来了。


不过对三只羊来说,虽然始作俑者已经被抓,但这人靠 AI 推在他们身上这把劲,估计影响还会持续挺久,至于后续怎么发展,我们还是再等等看吧。


图片、资料来源


安全内参:生成式伪造语音安全问题与解决方案


腾讯云:CNN卷积神经网络原理详解


PassingAI:卷积神经网络在音频处理中的应用有哪些?


云技术和洞察:AIGC音频处理


魔搭社区:so-vits-svc


Reecho睿声、新华网,微博、bilibili、部分图源网络


文章来源“差评X.PIN”,作者“西西 & 纳西”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales