胜诉！新闻企业与openai就模型训练的数据版权纠纷一案有结果了

胜诉！新闻企业与openai就模型训练的数据版权纠纷一案有结果了｜附判决原文和翻译

13987点击 2024-11-12 15:15

去年以来，包括纽约时报、Raw Story、The Intercept和AlterNet等在内的多家机构，针对ChatGPT所属的公司OpenAI提起诉讼，指控ChatGPT非法使用了新闻网站文章用于训练。

近日，纽约联邦法官驳回了Raw Story和Alternet对OpenAI聊天机器人的训练数据提起的版权诉讼。但这两家新闻网站的律师已经明确表示，这将不会是本案的终点，他们“确信可以通过修改后的诉状，来解决法院发现的问题”。

目前，人工智能训练阶段，使用未经授权的版权作品尽心训练的问题，是人工智能诸多法律问题中最具争议性的问题之一。尽管目前OpenAI所取得的胜利也仅仅是阶段性胜利，但无论本案的走向如何，都必将深刻地影响人工智能行业的发展。

因此，我们为大家详细解读本案中值得关注的要点：

胜诉！新闻企业与openai就模型训练的数据版权纠纷一案有结果了｜附判决原文和翻译

判决原文及翻译PDF，请添加AITNT官方微信客服 openai178，免费领取

案件基本信息

1.原告的诉请

（1）被告的行为违反《数字千年版权法》（Digital Millenium Copyright Act，简称DMCA）第1202(b)(1)条，原告有权获得实际或法定损害赔偿。

（2）原告请求针对被告施加禁令，要求被告删除原告作品的副本。

2.案情归纳

原告称，数千篇受版权保护的新闻作品被抓取，被告删除了这些文章的版权信息（copyright management information，简称CMI）。被告剥离了CMI后，将这些文章输入到至少三个训练集（WebText,WebText2,and Common Crawl）。这些训练集用于训练ChatGPT，ChatGPT在回复用户时不会提供作品的作者、标题和版权信息（CMI）。

原告认为，这些行为违反了《数字千年版权法》（DMCA）,第1202(b)(1)条，原告有权获赔。此外，由于ChatGPT的早期版本有抄袭问题，原告担心当前版本会复制其作品，故而寻求禁令救济，要求被告移除相关作品副本。

法院的论述

1.法律依据的查明

（2）宪法第三条诉讼资格要求：要求原告证明遭受具体、特定、实际或迫在眉睫的损害，而损害是由被告造成，且可通过司法救济补救。在起诉阶段，原告需明确指控事实证明各要素，损害需与传统可诉损害有密切关系。

2.法院的观点

（1）应当先审查原告是否具有诉讼资格：诉讼资格是联邦案件的门槛问题，应当先进行审查。原告基于《数字千年版权法》（DMCA）起诉，根据该法的规定，原告获得诉讼资格的前提是其收到了真实的损害（而不是抽象的损害）。但法院认为，被告删除了删除了版权管理信息（CMI）的行为，不足以认为原告因此遭受了实际的损害，因此原告没有诉讼资格。

（2）原告对法律的理解错误：法院认为，《数字千年版权法》（DMCA）第1202条主要保护版权管理信息CMI的完整性，其立法历史表明，该法的目的不是防范基于财产的损害而是“通过防止欺诈和错误信息，确保电子市场的完整性”（笔者评注：有点像国内著作权法定义上的署名权）；美国法典第17编第106条才涉及对作品复制和衍生作品的保护（笔者评注：有点像国内著作权法定义上的保护作品完整权）。因此，被告依据《数字千年版权法》（DMCA）第1202条请求损害赔偿的观点错误。

（3）原告不具有申请禁令救济的权利：原告认为，早期版本ChatGPT有生成抄袭内容的情况，据此推知ChatGPT未来有很大风险复制其作品的风险。因此，原告面临权益在未来被损害的风险，据此寻求法院的禁令救济。法院认为，因为ChatGPT训练数据量大，原告未证明其文章信息受版权保护，且考虑到存储库信息量，ChatGPT从原告文章中，直接输出抄袭内容可能性小，所以原告不具有寻求禁令救济的权利。

（4）法院认为原告寻求救济的方式错误：法院指出，原告真正寻求补救的，是被告使用其作品开发ChatGPT，但未对原告进行补偿对问题；而不是依据目前原告提出的法律条款，需求损害赔偿和禁令的方式。至于原告的请求是否有其他法规支持，还有待进一步探讨，但不在本次审理范围内。

法院判决结果

1. 法院判决驳回原告起诉

2. 原告请求重新起诉的动议不予批准

3. 原告重新提交一份动议，附上修正后的起诉书。

也正是因为法院允许原告方重新提交修正后的起诉书，所以才说OpenAI的胜诉是“暂时”的。

整体看下来，Raw Story和Alternet似乎在诉讼的策略上，似乎存在一定的问题。相较而言，纽约时报在诉讼中，除了主张适用《数字千年版权法》（DMCA）外，还依据1976年版权法等相关规定，围绕生成物的相似性、训练素材侵权、流量截取、模型幻觉、损害声誉等角度，论述OpenAI存在各种侵权行为。在诉讼证据的准备、诉讼请求的主张和诉讼策略的制定上，Raw Story和Alternet都存在明显的问题。

因此，作为首先做出判决的案例，本案确实具有一定的借鉴意义；但一些营销号鼓吹下定的“重磅胜利”“抓取训练数据训练AI合法化”等结论，恐怕还为时尚早。

文章来自微信公众号” AI合规圈 “，作者陈焕李琪瑶

胜诉！新闻企业与openai就模型训练的数据版权纠纷一案有结果了｜附判决原文和翻译

关键词: AI , AI版权 , AI诉讼 , openai , AI侵权