AI 可以「复刻」出越来越接近真实的个人
请问,长假 7 天,被 AI 用雷军的声音骂了 6 天,是什么体验?
雷军本人无辜躺枪,博主们在违法边缘试探或者已经违法,网友短暂地看了热闹然后回归工位,小米法务部两眼一黑,收不回手里的 40 米大刀。
声音克隆,这事其实已经不新鲜了,但泛滥成灾的后果,才刚刚显露端倪。
最近,抖音、B 站有不少「雷军骂人」的视频,其实都是网友用 AI 克隆了雷军的声音整活,并且文案的套路也很类似,大概都有三个特点。
这是恶搞
开头直抒胸臆,言明身份,「大家好,我是雷军」。
这是恶搞
话题百无禁忌,打篮球、打麻将、打游戏不爽了,假期不知怎么就过完了,都借 AI 雷军之口吐槽和锐评,更过分者,用虚假信息抹黑品牌形象,比如用小米手机看黄片。
这是恶搞,相关搜索很有意思
语气温和但脏话不断,和雷军本人形成反差,一口一个老子、畜生,问候他人母亲,甚至造谣式威胁,声称远程控制小米手机自爆、用小米 su7 撞人。
这是恶搞
还有脑洞清奇的网友,用 AI 伪造雷军回应,前面画风正常,澄清事实,夸网友有才,让大家谨慎辨别,像雷军会说的话,后半段转折,图穷匕见,继续口吐芬芳,让人猝不及防。
雷军本人已经知道了被 AI 恶搞的事情,在小米 su7 锁单的微博评论区被网友提问时,回了三个感情色彩鲜明的 emoji。
雷军的形象一直比较平易近人,不介意玩自己的梗,入驻 B 站时配上了「成名曲」《Are you OK》,小米甚至推出了 Are you OK 手型的周边,但这次的性质显然不太一样。
玩梗归玩梗,过于低俗,甚至怀揣恶意,就不可取了。
这些视频不仅不强调是 AI,还言之凿凿说自己是雷军,配图用了真人照片,确实是在侵犯名誉权、肖像权的边缘试探,比起 AI 孙燕姿是否侵权更加明确。
小米法务部干活了,目前在抖音搜索「雷军 AI 配音」,已经没有什么脏话、造谣、骂街了。
AI 侵权尚且属于新事物,但也有前车之鉴可循。
今年 4 月,全国首例「AI 声音侵权案」一审宣判,明确认定,在具备可识别性的前提下,自然人声音权益的保护范围。可及于 AI 生成声音。
这里有个关键的概念,什么叫可识别性?除了声音的使用情况,本起侵权案还提到了一个接地气的评判标准:相关领域普通听众能否识别。
推广到雷军 AI 配音,这个标准应当也适用,很多视频虽然内容一听就不像雷军的风格,但声音确实和雷军本人相近。
总之,互联网不是法外之地,AI 也逃不过天网恢恢。别说什么技术中立,该承担责任的,还是使用工具的人类自己。
AI 雷军声音的大规模传播,也说明了一个事实:克隆声音越来越简单。尽管维权团队出手了,但社交媒体上已经热闹好一阵了。
不像当初让 AI 孙燕姿唱歌要用 SoVITS 训练模型,有点专业门槛,比较考验设备性能,现在让某人说什么话,直接在网站上就能几乎实时生成。
声音克隆网站,有很多用户自行上传的 AI 角色
前段时间,直播头部公司三只羊还没走出「月饼门」,又陷入「录音门」,盖棺论定之后,也是 AI 的锅。
一段疑似三只羊高管的录音内容被曝光,内容拉低下限,涉及到多位高管和主播,但据警方调查,音频内容不实,是用 AI 伪造的。一时间人们无法相信,AI 这么强大了,都能制造酒后言论,把自己送到法制栏目了。
不可信其无,我简单尝试了一个声音克隆网站,注册邮箱即可使用,雷军 AI 声音是其中一个热门选项。
虽然生成的效果有些瑕疵,出现杂音、吞音,音质像电话那头传来的,但几乎实时生成,500 字内免费,语气、语调也比较自然,还要什么自行车?
又一个声音克隆网站
瑞莱智慧算法科学家陈鹏博士告诉 APPSO,之前捕捉我们的声纹信息,需要几分钟、几十分钟的语音,但现在可能半分钟、几十秒,就能捕捉个大概。多接几个骚扰电话,我们的声音或许就泄漏了。
不过,想要更精准地克隆,复制音调等说话风格,比如让郭德纲说英文相声、让霉霉讲中文,仍然需要更多的语料。
但论语料,名人可不缺。海外也发生过 AI 声音造假事件,甚至把主意打到了总统头上。
今年初,美国新罕布什尔州的居民,接到了拜登的自动语音电话,被告知不要在州初选时投票,实际上这段音频是用 AI 工具 ElevenLabs 伪造的,目的就是要干扰选举。
事发几天后,ElevenLabs 拉黑了始作俑者的账户,这位用户承认,克隆拜登的声音,他只花了不到 20 分钟,以及 1 美元。
ElevenLabs 也为此做了些防范措施,包括「No-Go Voices」,禁止用户上传或克隆某些名人和政客的声音。
然而,并不是铁板一块,今年 3 月,404 media 的一位记者发现,只需在上传文件的开头添加一分钟的沉默,就能绕过规则,克隆特朗普和拜登的声音。
也可以用魔法打败魔法,但 AI 检测软件经常拿 AI 生成的音频没办法。
NPR 的记者测试了三个检测软件,结果并不乐观,提交了 84 个样本,表现最好的软件错了 3 题,剩下的一个错了 20 题,一个正确率只有 50% 左右。
AI 雷军声音的事件中,还有一个很有意思的现象:除了在线呼叫法务部,也有网友表示,怎么平台不管一管,反让这种内容流行起来?
网信办 9 月发布的《人工智能生成合成内容标识办法(征求意见稿)》提出,AI 生成合成内容,应当添加显式标识和隐式标识,前者可被明显感知,后者添加在元数据中。
用户添加自主声明
其中,传播内容的平台,应当承担什么责任呢?
一是核验元数据有无隐式标识,如有,应添加显眼的提醒;二是没有核验到隐式标识,但用户声明是 AI 内容,也应该添加提醒;三是,既没有隐式标识,用户也没有声明,平台检测到了 AI 痕迹,同样需要添加提醒。
这次的闹剧就是一个例子,用户没有自主声明,平台的检测也不到位,有的视频标题下方提醒了「疑似使用了AI生成技术,请谨慎甄别」,有的却没检测出来。
上面没标注,下面标注了
今年初,泰勒·斯威夫特被 AI 伪造色情图片,也是名人被 AI 祸害的典型事件,同样反映了补救措施的滞后性。
其中一张图片在被删除前,在 X 存活了 17 个小时,被查看了 4700 万次。
X、Instagram 等社交媒体,除了删除照片,一度不允许搜索霉霉,或者在搜索时发出警告。粉丝们恨铁不成钢,自发「屠广场」,用真实照片保护偶像。
Instagram 对泰勒·斯威夫特的搜索警告
AI 技术越被广泛地使用,就越难防止被滥用。
当初用 Midjourney 生成的、穿上羽绒服的「时尚教皇」,让有图有真相成了过去时,此情此景,声音、视频也是类似的道理。
最细思极恐的是,技术持续进步,AI 可以「复刻」出越来越接近真实的、具备某种生物特征的个人。
我们的面部、个人信息,说泄露也就泄露了。同时,画风、音色,这些曾经有门槛、貌似独一无二的事物和技艺,也被 AI 学个八九不离十,哄骗普通人足够了。
今时今日,除了动用技术、法律的手段,我们或许不得不考虑,是不是该有一些道德的共识。君子有所为,有所不为。己所不欲,勿施于人。
当我们上网时,最好不要默认一切是真实的,更不要成为过界的始作俑者。我们不是在岸边凝视海水,我们也是上面的一叶扁舟 。
文章来自于微信公众号“APPSO”,作者“APPSO”
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales