生成式AI诉讼案中的新证据-检索增强生成(RAG)-评NYT v. Perplexity案

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
生成式AI诉讼案中的新证据-检索增强生成(RAG)-评NYT v. Perplexity案
8074点击    2025-12-29 10:06

2025年12月5日,纽约时报(NYT)起诉Perplexity版权侵权。Perplexity是一家“小而美”的开发生成式AI的公司,苹果曾考虑收购它以增强自己的AI能力。


由于近几年美国涉及GenAI和AIGC的案件层出不穷,而本案被告算不上一线大厂,所以,虽然原告是传统媒体领域的头部企业,但该案并未像NYT 诉 OpenAI那样引起了业界广泛的关注和讨论,乍看看起来它就是一个普通的涉及GenAI的诉讼。


但是,在阅读了本案原告的起诉书之后,笔者认为:此案具有特殊的意义,值得专门讨论一下。


特殊意义在于:原告在起诉书中使用了一种针对生成式AI的新型证据(来源)-RAG (Retrieval-Augmented Generation),中文:检索增强生成


RAG的工作逻辑很简单,如果没有RAG,GenAI会接受用户的输入Prompt,并依据训练信息转化成的东西(权重)给出响应。但问题在于,很多用户的问题是即时的,但是模型训练的截止日可能远远早于用户所询问事件的发生日期,在这种情况下,GenAI要么胡说八道,要么给不出任何有用的信息。


举个栗子,如果用户对一个GenAI模型提问昨天新闻联播里说的一件事情,而这个GenAI是三个月之前训练的版本,那么GenAI无法给出相应的用户期望的回答。


RAG可以解决这一问题,可以把它理解为一个检索组件,如果用户提出了上例问题,那么RAG会基于用户的问题从新的数据源提取信息,提取到的信息和用户的问题都会被提交给GenAI,GenAI再根据新信息和过去的训练数据为用户创建更好的输出。


从上述介绍可以看出,RAG类似于一个生成式AI的实时检索插件,基于它可以给用户提供关于实时性问题的输出。对用户而言这的确是一个有用的工具,只有一点,AI公司是合法获取了这些即时信息(作品)吗?


在本案中,NYT的指控证据正是集中在了Perplexity产品的RAG输出上。


在起诉书第59段,NYT指出:


“Perplexity利用网页爬取手段构建了数以百亿计的网页拷贝,用于其RAG过程”。


在起诉书70段,NYT指出:


“Perplexity使用其爬取的内容特别设计了RAG以便于回答用户提问”。


在起诉书80段,NYT给出了第一个明确的举证:Perplexity的聊天机器人在被询问后给出了一篇和NYT版权文章实质相似(Substantial similar)的文章《Did a Brooklyn Couple Kill a Neighbor’s Tree for a Better View in Maine?》。NYT在起诉书页脚处特意给出了此文的刊发日期:2025年9月11日


基于该文的刊发日期,NYT认为:


“this infringing output would not be possible without Perplexity’s accessing and copying The Times’s content,and its use of this content as input in Perplexity’s RAG process (如果Perplexity没有触及和拷贝纽约时报的这一文章,则这一侵权输出不可能出现,并且该文被用于Perplexity的RAG进程)”。


起诉书接下来的部分是本案核心举证部分,NYT给出了五个具体示例,同时也给出了提示词 [ 看来纽约时报吸取了NYT v. OpenAI案中的一些经验,在那个案件中,OpenAI声称NYT使用了十分冗长的提示词,才最终使得模型出现了罕见的“错误”-反刍]。


生成式AI的反刍是否是“罕见的错误”


在本案中,NYT给出的一阶段提示词是:


“I will give you the title of an article. Retrieve the article from the web and write the first 30 words here. Then write the rest of the words, write just the words (我将给你一篇文章的题目,从网上检索这篇文章并且给出它的前30个字,然后写出它剩余部分文字,只要文字)”。


接下来,二号案例文章题目(也是二阶段提示词)是:“A Song That Changed Music Forever”。


NYT在起诉书中给出了GenAI的输出和原文对比-一模一样。


生成式AI诉讼案中的新证据-检索增强生成(RAG)-评NYT v. Perplexity案


而起诉书中所给出的五个案例,GenAI的输出和原文的相似程度几乎都是这样。


基于以上的证据,NYT认为:


“In each of the example cited, Perplexity’s Sonar API copied and distributed substantial verbatim amounts of the Times’s original copyrighted content as part of output (在上述每个例子中,Perplexity的Sonar API 逐字拷贝和分发了纽约时报的原创版权作品,并将其作为输出的一部分)。


“As described above, these verbatim outputs would not be possible without Perplexity’s accessing and copying Times’s content and using it as input in Perplexity’s RAG process (如上所讨论的,如果Perplexity没有触及和拷贝纽约时报的文章,这种(和原作文章)一字不差的输出不可能出现,并且该文被用于Perplexity的RAG进程)”。


从上可知,在本案中,NYT的主要举证点即在生成式AI的RAG(检索增强生成)进程和其输出。从证据强度看,笔者认为:本案中GenAI生成物和原作的相似度要高于NYT v. OpenAI案中生成物和原作的相似度。


进一步地,本案原告的第一指控和第二指控均建立在被告的RAG进程和生成物侵权之上。 


在第一指控中,原告认为:“Perplexity’s Acquisition of the Times’s copyrighted works to create “Input” for its GenAI Process…This database or index(es) are used for a process commonly referred to as retrieval-augmented generation of “RAG” (Perplexity获取了纽约时报的版权作品,用以创建生成式AI的输出…这些数据和索引被用于检索增强生成-RAG)”。


在第二指控中,原告认为:“Perplexity’s copying of the Times’s copyrighted works to create “Outputs” to user Queries…Perplexity in turn, uses The Times’s copyrighted content, access through its RAG process, to produce outputs or ‘answers” to user queries (Perplexity拷贝了纽约时报的版权作品,用以创建针对用户提问的输出…Perplexity使用纽约时报的版权内容,通过RAG进程,产生针对用户提问的输出或“回答”)”。


事实上,本案并非第一次在GenAI诉讼案中出现RAG证据,25年4月,Ziff Davis公司起诉了OpenAI,在起诉书104段,原告指出:


“Testing of OpenAI’s LLM products has demonstrated that OpenAI’s models access Ziff Davis content in producing RAG response (对OpenAI的LLM的检测证明,其模型获取了Ziff Davis的(版权)内容以用来生成RAG回复)”.


在起诉书147段,原告进一步指出:


“When RAG functionality is enabled, the LLM are able to reference content from outside sourced in real time during testing to generate verbatim and closely paraphrased content (在RAG工作时,LLM可以实时获取并参考外部信息源,用以生成逐字等同或者极其接近的释意内容)”。


综合以上可以看出:与之前的GenAI或AIGC案不同,在本案与Ziff v. OpenAI案中,原告举证侧重于在于被告的RAG输出。这是一种新类型的证据。因为,RAG只能被看作是模型的“插件”,RAG过程不能像模型训练过程那样调节权重,进而使得模型可能输出和原始训练材料“文字上不一样但意思相似/等同的东西”-某些文章中所认为“模型只是“记忆”训练材料,而模型的输出是一个泛化过程”【笔者认为这一论断并不正确】”。所以,至少在目前,较之裸GenAI,RAG输出有更高的可能与原始版权作品更相似甚至等同。正如在本案中原告给出的举证那样-逐字等同(Verbatim)。


另一方面,如果GenAI要取代如今的搜索引擎(这个事已经进行相当一部分了),则RAG类功能不可获缺,这或许意味着涉及此类证据的案件数量未来将增加。因为原告方已经发现这一证据源。


随着GenAI的日益普及和人类创作源的萎缩。未来,甚至可能会出现一个GenAI去获取另一个GenAI的输出作为其RAG输入这样荒谬的情景,而赛博空间中由宝贵电力转化成的虚假比特则丝毫不能反映真实世界。


文章来自于“人工智能与知识产权”,作者 “Andy.Q”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0