ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
揭秘AI伪造小杨哥录音:最低零成本,只需三秒钟
2783点击    2024-10-02 10:57


这个锅,AI真的不该背。



小杨哥事件中曝出来那段“卢文庆录音”,先是内容尺度之大引起舆论哗然,接着又被查明全部是AI伪造。


一来二去,AI技术再次被推上了风口浪尖。


图/言域科技官方回复


先不论技术好与坏,本质上,AI合成录音可以被理解为一种Deepfake,即利用深度学习算法,实现音视频的模拟和伪造,也就是通过人工智能技术中的深度学习模型,将人的声音、面部表情及身体动作拼接,合成为非常逼真的虚假内容 。


技术层面来说,它是中性的,类似的方式除了语音模拟,还包括AI换脸、人脸合成、视频生成等,统称为深度伪造。



但,中性的技术,架不住使用者图谋不轨。


蓝媒汇咨询了国内头部AI数字人公司风平智能创始人兼CEO林洪祥,对于这类事件,林洪祥坦言,AI带来的生产效率提升是全方面的,但在“应用”扩展起来的中途,违规事件想要完全隔绝,恐怕需要系统性的规范并有效执行。


依照行业目前的技术水平,用户只需要找几分钟的零散素材作为AI的学习样本,就能迅速克隆出完整的AI人声。而录音中的一些说话的顿挫、情绪语调,完全是可以通过技术手段去增减、调整的。


并且,落到实际应用环节,复制一套AI人声的成本“现在已经不高了”,市面上的应用很多都会给一些免费的入口,以涉事模型为例,Reecho睿声模型提供了免费的声音克隆服务,更为专业的版本则另需付费。



把从网上截取的一段卢老板直播转成音频导入,短短几秒钟后,卢老板的AI声音就克隆了出来。



再仿照原事件中情绪和文本都非常离谱的一段录音,作为脚本导入模型,一段卢文庆锐评马斯克的录音,就做完了。


“小马他俩走了,是吧。我跟你们说,我想让谁火就让谁火,懂吗。我认识的CEO多了去了,我捧谁不是捧。别给我提马斯克,不好使,知道不,不好使,我们喝酒也是不好使,他是个啥,没有三只羊,谁来给他卖货,懂不懂这个道理。”


坦白讲,如果那种AI诈骗电话听多了,或者对人声敏感,其实还能听出来AI音频有种“机器感”——语调从始至终都过于稳定,人情绪激动的时候绝不会这样。但这只是最基础的普通版模型、瞬时克隆功能。如果有更充足的语料、选择专业克隆功能,效果会更“真实”。



那么,AI合成的音视频,有可能像测谎仪那样比较直观通过数据分辨真伪吗?


在技术层面,是可行的。林洪祥介绍称,除使用者本人授权外,现在AI数字人行业内也确实有相关标准正在建设中,要求各种AI生成的内容都加上专门的可识别“特征标记”。


这个标签,不是简单的在角落里加个“由XX AI生成”水印,以AI合成声音为例,它会在人说话声音的频段之外,添加额外的噪声频段,甚至在可见音的范围内,添加一定的特征频段。


这个特征频率可由机器识别,如果需要做鉴定,交由设备抽取这些频段,理论上即可判定真伪。


但目前,愿意将这项功能普及的企业并不会太多,限制因素无他,主要还是多一道手续产生的成本——尽管单次使用模型的成本并不高,但每个音视频模型预训练阶段的投入,以及阶段性产出后开发下一代音视频模型所产生的成本,对于现阶段的AI企业仍有较大压力。


目前,AI音视频行业尚在早期,推广阶段如何获客的同时覆盖成本,是从业者绕不开的话题。


但上述这些,显然都不是图谋不轨的不法分子会考虑的事,烟花还是炸弹关键看火药怎么用。


半年多前,香港警方披露了一起涉案金额高达2亿港元的诈骗案。案件中,某跨国公司香港分部的职员接到总部CFO通知,称总部正在计划一个“秘密交易”,需要将公司资金转到几个香港本地的账户中待用。


而后,员工受邀参加总部发起的“多人视频会议”,并按照会议要求先后将2亿港元分别转账15次,分别转到了5个银行账户内。


图源/央视新闻


实际上,这场多人视频会议,除了该分部职员外,其他“人”都是诈骗分子利用公开音视频切片合成的AI形象,再用视频电话会议的形式换脸换声音,诈骗团队直接变成高管团队发号施令。


香港案件中,不法分子是相当于是用AI换脸+AI变声器真人出镜,而小杨哥这次的AI伪造录音,则是完全由大模型学习三只羊公司卢文庆相关音频素材后,合成语调、情绪都趋近于真人的整段音频。流程,就是这么简单——AI合成音视频,已经是一项成熟的技术,相关产品,也已发展成为完整产业。


但,AI合成音视频的主流,绝非造假。流浪地球第二部的剧情内,刘德华饰演的图恒宇以数字生命的形式复活了丫丫,而在剧情外,已故的知名影星吴孟达,也在借由 AI 现身银幕。




所以,以后如果再出类似小杨哥录音事件,讨论技术有罪还是无罪之前,还是尽量先把人控制住。


管管人性,救救AI。


文章来自于微信公众号“AI蓝媒汇”,作者“陶然”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
AI换脸

【开源免费】Deep-Live-Cam是一个只需一张图片即可实现实时换脸和一键视频深度伪造的AI项目。

项目地址:https://github.com/hacksider/Deep-Live-Cam

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales