AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
5469点击    2025-06-26 16:23

无需原作者同意,AI可以用已出版书籍作训练数据了


就在最新判决的诉讼中,美国法院裁决:允许Claude背后公司Anthropic在未经作者许可的情况下,使用合法购买的已出版书籍训练AI。


法院参考了美国版权法中的“合理使用”(Fair Use)原则,认为AI训练属于“转化性使用”(Transformative Use),即对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


这是美国法院首次认可AI公司对书籍的使用权,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制:


大大降低了AI训练数据的版权风险


对此,不少网友的看法是这样的:既然人类读书并加以理解是毫无争议的,那AI读书并理解也应该合理。


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


怎么一回事?


对Anthropic的指控,由三位作家在2024年8月发起。


值得关注的是,Anthropic的案件不仅针对使用已出版书籍训练AI,还涉及到书籍的来源问题:


2021年,Anthropic的联合创始人Ben Mann从盗版网站下载19.6万本受版权保护的书籍。


到2022年,Anthropic又从LibGen和PiLiMi下载了“至少500万份拷贝(copies)”和“200万份拷贝”,建立数字化图书馆。


尽管Anthropic在那时已意识到盗版法律风险(“not so gung ho about pirated books for legal reasons”),但仍保留所有盗版副本


2023年3月,Anthropic从数字化图书馆选择书籍子集训练Claude模型,Claude首版发布。


2024年2月,Anthropic雇佣前Google图书扫描项目负责人Turvey,转向合法采购并扫描书籍,购买数百万本纸质书。


Turvey发送了“一两封邮件”(“an email or two”)给出版商,但未持续跟进(“let those conversations wither”)


根据美国法院对Anthropic的裁决文书,可以关注到以下几点:


1、这次事件的争议主要在Anthropic未经过创作者允许,使用已购买的正版书籍或盗版书籍对Claude进行训练。


2、原告对于Anthropic的指控是:非法复制作品(包括盗版和扫描版)用于训练AI,侵犯版权


3、法院裁定Anthropic可以使用合法采购书籍的扫描副本用于训练AI的数据处理,认为AI训练具有“高度转化性”,未直接替代原作市场,且输出未侵犯原告作品。


4、法院同时裁定盗版书籍的使用不构成合理使用,盗版行为本身涉及侵权。盗版相关责任及赔偿问题需进入审判阶段。


有网友简单总结为:关键在于训练使用书籍的来源是不是盗版。


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


也就是说,AI公司可未经原作者许可使用合法购买的书籍训练AI


有网友表示:这是一个正确的决定,就像人类可以去图书馆或者读自己买的书一样自然。


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


同样的,这个裁决结果也面临着一些争议:AI可以和人类一概而论吗?创作者又该如何保护他们的知识?


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


类似案例


类似案例曾出现在其他AI公司的诉讼中。


2015年Goggle Books:美国最高法院认定属于“合理使用”


2004年,Google开始了“Google’s Library Project ”,这个计划与各大图书馆合作,打算将超过两千万册图书扫描并数字化,供Google使用者直接搜索。被扫描的图书包括超过著作权保护期限的公有作品和那些尚处在著作权保护期内的书籍。


Google Books的处理是:对公有作品和内容提供全文免费浏览和PDF格式的下载;对尚处在著作权保护期内的作品,只提供书目、简介和少数章节的内容,同时提供正版的电子书或印刷版购买链接。


2005年,美国作家协会等机构将Google Books告上法庭,认为Google未经授权扫描全书构成版权侵权,理由包括:


  • 全文数字化复制侵犯作者复制权;
  • 片段浏览功能可能替代原作市场;
  • 有商业动机(搜索业务衍生收益);
  • 数字副本存储存在黑客泄露风险;
  • 向合作图书馆分发副本可能损害版权人利益。


2013年,美国联邦法院作出了第一判决,驳回原告诉求,认定Google的搜索和片段浏览功能只“转化”了原作用途(从阅读到信息检索,未提供实质替代内容,可促进学术研究和图书发现,构成合理使用的条件。


2015年,二审维持原判。


2022年GitHub Copilot:促使AI公司推出“代码来源标注”功能


GitHub Copilot是微软旗下GitHub开发的AI编程助手,基于OpenAI的Codex模型,通过分析公开代码库(如 GitHub 上的开源项目)生成代码建议。


2022年,多名开源开发者及组织指控GitHub Copilot:


  • 许可证违规:Copilot 训练时使用了 GPL 等“传染性”开源许可证代码,但生成代码未遵循原许可证要求(如保留版权声明)。
  • 版权侵权:生成的代码与开源代码高度相似,涉嫌直接复制。
  • 商业滥用:微软将免费开源代码转化为付费工具(Copilot 企业版),违背开源精神。


根据公开报道和诉讼进展,关键结论如下:


  • 法院认定 AI 训练使用开源代码属于“转化性使用”,不构成直接侵权(参考Google Books案逻辑);
  • 原告未能证明Copilot系统性输出侵权代码,偶发相似片段不构成大规模违规;
  • 法院要求GitHub加强过滤机制,避免输出受GPL等强许可证约束的代码,或明确标注来源及许可证要求,并提供工具供用户检查代码与开源库的相似性。


2023年2月,GitHub正式发布“代码来源检测”功能(Code Referencing),作为默认服务集成到Copilot中,帮助用户识别生成代码与开源项目的关联性。


2023年Open AI&Meta:仍在受理


2023年,多名作家、演员以及全球出版商联盟指控Open AI和Meta使用盗版数据训练AI,数据包含来自“影子图书馆”(如 Bibliotik、LibGen、Z-Library)的书籍,这些网站提供未经授权的版权内容。


ChatGPT能准确总结原告的书籍,证明模型“记忆”了受保护文本;Meta CEO扎克伯格及AI团队明知LibGen为盗版,仍决定使用其数据训练Llama 3,以加速超越OpenAI。


关于Open AI和Meta的案件仍在受理中,尚未明确裁决。


本次Anthropic案的胜诉并非孤例,而是美国司法系统在“技术创新vs.版权保护”的拉锯中倾向前者的体现,也是美国首次有法院支持合理使用原则,保护人工智能公司在使用受版权保护的文本训练 LLMs 时不受限制。


意味着此后AI可以研究其购买而非从盗版网站获取的内容


有网友认为,本次裁决结果可能影响美国法院对Open AI和Meta案件的审理。


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI


参考链接:

[1]https://x.com/rohanpaul_ai/status/1937598431947808893

[2]https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf

[3]https://githubcopilotlitigation.com/

[4]https://x.com/CeciliaZin/status/1740109462319644905


文章来自于“量子位”,作者“不圆”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI