2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔
6477点击    2025-08-19 12:05

你有没有想过,Meta 训练 AI 用的数据里,有可能不只是维基百科、小说、YouTube 视频……而是你在某个晚上偷偷下载的成人电影?


你没听错。是色情片。而且不是三两个,而是 2396 部!


就连提起这事的方式,都像是段子。


2025 年 7 月 23 日,两家美国成人电影公司——Strike 3 Holdings 和 Counterlife Media,把 Meta 告上了加州北区联邦法院。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


他们说,从 2018 年开始,Meta 用 BitTorrent(也就是 BT 下载)偷偷下载了他们旗下的 2396 部成人电影,用来训练自家的 AI 模型。包括视频生成器 Meta Movie Gen、LLaMA 大语言模型,还有其他“未透露名称的模型”。


营销号标题我都替他们想好了,重生之《Facebook 盗播我拍的黄片,用来做 AI》。


而且这起案件潜在赔偿高达 3.59 亿美元,每部片子 15 万美元。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


我知道你想问:Meta 这么大一公司,怎么会干这种事?难道付个片源授权的钱有那么难?


但慢着,这事真没你想的那么简单。这关系到的不仅仅是“看黄片”这么简单,它揭开了一个所有 AI 公司都不愿意正面回答的问题:训练数据到底哪来的?


Meta,是怎么把自己送上法庭的


故事要从另一个案子说起。2023 年,Meta 被一批作家集体起诉,说它用盗版图书训练自家的 LLaMA 模型。而在那个案子里,Meta 自己承认:是的,我们的确用了 BitTorrent,从多个“影子图书馆”下载了大量盗版书籍,总共 81.7TB 的数据。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


注意,这不是「员工擅自行为」,是平台层面参与的事情。公司设了六个虚拟私有云服务器(VPC),连着匿名 IP 地址,用来掩盖 BitTorrent 活动。他们甚至写了脚本来控制做种行为,以防自己太明显地暴露。


也正是在这个案子中,Strike 3 发现了 Meta 的 IP 地址出现在 BT 群组里。


于是他们开始顺藤摸瓜,把 Meta 相关的 47 个 IP 地址一一筛查、匹配下载记录,还用 MaxMind 做地理定位,再结合他们内部的追踪软件 VXN Scan 和 Cross Reference Tool,挖出了一个令人目瞪口呆的结果:这些 IP 多年来一直在稳定下载并做种他们家的成人电影,而且是“高频 + 长时段 + 多分辨率”同步下载,有着明显“非人类”的行为模式。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


「比如下图所示的 185.89.216.251,根据 MaxMind IP 数据库,归属于 Facebook 公司名下,连接类型为 Corporate 网络。」


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


你以为这就完了?当然不是。


有多个 IP 虽然不归属 Meta,但与其下载行为在内容、分辨率、语言版本上几乎完全重合,且出现在同一 BT 群组中,存在高度协同嫌疑。Strike 3 将其定义为 Meta 可能搭建的 off-infra 服务器(即公司架构外的行为代理)。


其中一个 IP 地址追踪到了一个 Comcast 家庭宽带,绑定在某个 Facebook 员工的家中。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


图:Strike 3 提供的侵权 IP 证据片段,包含 Meta 公司 IP、隐藏 IP 段(Range B / Range F)及员工住宅 IP,下载行为从 2018 年持续至 2025 年


没错,有人在公司干不完的活,晚上回家接着用自家 Wi-Fi 下片做种,继续贡献训练数据。


仔细想想真荒唐。。这也正是这起官司里最致命的地方——系统性、工具化的“以播促下”式盗播训练


为什么偏偏是色情片?


Strike 3 的律师在诉状里解释了这个问题,说得很“法务”,但翻译成人话就是:


我们这些黄片,画质高、分辨率高、镜头长、表情自然、对话有节奏、动作有连贯性、场景变化少。


对于训练 AI 模型,尤其是生成类视频模型来说,没有比这种素材更理想的了。


大多数电视剧剪辑太快,镜头太多,表演太做作。新闻视频没有人物互动。YouTube 视频缺乏一致性。而成人电影呢?它天然有一个清晰的“故事线”,人物动作从开始到结束基本在一个空间中完成,配音与肢体一致,而且角色情绪、表情都是真人表演。


当然,除此之外它还有其他训练数据没有的「独特场景」。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


所以,这些片子在 Meta 内部,成了一种训练黄金素材。


更关键的是,它们在 BT 网络里太好找了。而且种子越热门,下载越快。于是 Meta 干脆用“以种换种”的办法,把别人家的片子做种传播出去,用来换回其他内容。种得越多,换得越快。BT 的算法就是“tit for tat”,你播种给我,我就给你更多速度。


这就从顺手拿来变成了主动交易。


数据越脏,模型越香


说到底,这不是 Meta 第一次这么干了。


上次用书,这次用片。前者你可能会说“不过是几本小说”,后者你也许会想“成年人都看过”,但事情的本质是一样的:


Meta 正在用一套灰色操作链,替自己省下大笔训练数据授权费。


起诉书里写得清清楚楚:


  • 自 2018 年至今,Meta 持续侵犯了 2396 部影片;


  • 分发行为持续时间从“数天”到“数月”;


  • 做种行为并不是个别行为,而是系统性部署,配有专用服务器;


  • 就连 Meta 员工家里的网络都被用来贡献数据;


  • 多达 10 万次的下载分发交易,有详细 PCAP 记录可查;


  • 在收到律师函警告之后,仍有行为持续。


你可能会觉得这有点扯:Meta 不是有钱吗?能花钱挖这么多人,真至于在数据上省这个钱?


但你要知道,训练一个视频生成模型需要的素材量是“百万小时”级别的。若全用正版,授权费用能过亿美元。而这些影片,在 BT 网络上几乎唾手可得。


在“没有数据就没有 AI”的现实里,“先抓后和解”已经变成了行业潜规则。OpenAI、Stability、Google……哪家不是先偷后赔?


只是这次,Meta 撞上了一个极为擅长打官司、且对版权看得比命还重的对手——Strike 3。


说到这儿,我们必须再讲一个背景故事。


Strike 3 是美国最喜欢打官司的成人电影公司之一。他们几乎所有业务都围绕版权维权来展开,靠打盗版官司收和解费,年入数千万美元,已经把“维权”做成了流水线生意。


据统计,从 2017 年到 2023 年,Strike 3 就在美国联邦法院提起了近 9500 起此类诉讼。平均下来几乎每天都在起诉,且大多采用“John Doe”匿名形式锁定 IP 地址后,通过法院命令向 ISP 索取用户身份,再发律师函要求庭外和解。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


他们甚至自研了一整套追踪系统 VXN Scan,每天扫描 BT 网络,看哪些 IP 在播种自家影片。可以说,他们在意的不是片子有没有被看,而是有没有人为此付钱。所以打造了一种既赚钱又不违法的商业模式:抓 IP 地址发律师函。一封信寄过去,许多普通人就会乖乖付几百美元私了,落袋为安。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


但这次他们盯上的可是 Meta。一个手握 Instagram、WhatsApp、Ray-Ban 智能眼镜和 AI 实验室,市值超 1.7 万亿美元的全球科技巨头。


这一回合,刚好是两种最极端的版权思维的正面对撞。


一边是“你不付钱我就搞你”,一边是“你有片我就拿来用”。


狭路相逢勇者胜。


现实,比 AI 生成还魔幻


我们很容易用“看黄片训练 AI”来调侃这件事。但你有没有意识到,它其实揭露的是一个全行业共同回避的问题:AI 模型吃进去的数据,没人知道是什么,也没人愿意说清楚它从哪来的。


Meta 不是第一个,也不会是最后一个。只要监管缺位、披露不透明、法律落后,这种“数据洗白”就会成为主流。


这次是情色片,下一次也许是你的医疗影像、你家的监控录像、你写的小说、你朋友的语音聊天。


所有这些,都会被“以研究为名”的 AI 模型在黑夜里吞噬。


你甚至不知道它们被用来干嘛,最后会变成什么。


就像这次。那些片段,被喂给了一个叫 Meta Movie Gen 的模型。也许哪天,它能一键生成一部你完全无法分辨是真人还是 AI 拍的动作片,甚至演员的表情和情绪都真实得让你出戏。


而你从头到尾,都不知道它是谁教的动作。


但也不是所有人都在假装看不见。就在上个月,Cloudflare 更新了政策:默认拦截所有未经许可的 AI 网络爬虫。只要你的网站挂在他们的 CDN 上,那些自称是“AI 研究”的爬虫,连内容都看不见。他们的态度很明确:你要数据,请先打招呼。


2396部黄片,一片罚15万,Meta用BT偷黄片训练AI,遭天价索赔


这就是差别。有的公司在训练 AI 之前,先考虑别人的权利。而有的公司则在训练完之后,才开始算计怎么掩盖自己用过什么。。。


Meta 至今还没有回应这场官司。可能他们在等和解,可能在准备技术澄清,或者干脆等公众忘记这件事。


无论这场官司最终胜负如何,有一个事实不会变:AI 的未来,正是用你以为没人会看的数据,一点点喂大的。


你看到的是技术进步,它看到的是训练素材。


而素材,从来都不只是数据。


它也可能是你。


文章来自于微信公众号“夕小瑶科技说”,作者是“R.Zen”。


关键词: AI新闻 , Meta , AI八卦 , AI训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai