李昀锴没有想到,一个赔偿金额500元的案子,足足耗时半年,期间经历了5次庭审。
那是去年初,他起诉了一个博主,对方擅自使用了自己用AI绘图软件生成的画作,他想知道,在法律实践中,这样的“人机共创”模式,著作权归属问题该如何解决。
案件审理从当年2月一直持续到8月,最终,法院判决被告赔偿500元。这是国内AI绘画著作权第一案。
李昀锴是北京天元律所合伙人律师,长期关注知识产权业务领域。赢得官司后,他没有收下赔偿,比起金额,他更在意在技术革新之际法院的态度。
自2023年初ChatGPT爆火以来,生成式人工智能正在以前所未有的速度进入、重塑我们的生活。“古典时代”的互联网数据习惯已经无法跟上人工智能的脚步。在过去的一年多时间里,李昀锴发现越来越多的法律纠纷正在出现,数据安全是这些纠纷的逻辑起点,从中延伸出侵权、欺诈、抄袭等多种情况。
AI时代,这是一个与所有人相关的命题,比起被AI取代工作,我们得先担心另一件事:数据安全和个人隐私。
以下是镜相工作室与李昀锴律师的对话:
AI时代的案件,难在自证
镜相工作室:从结果上看,赔偿500元的案件体量较小,一般人不会去打这种官司,你是出于什么原因要做这件事?
李昀锴:当时,AI绘画的权利划分在法律上是一个空白,而我的专业领域正好是涉及到知识产权、互联网这些方面,就做了一些相应的研究。
那段时间,我对AI绘画的创作热情比较高,每天要玩一两个小时。实际上每个人都有创作的需求,AI就给你提供一个更便捷的途径。在我与同好们的交流中,我发现大家对新技术既兴奋又有顾虑,他们担心用AI生成的作品会不会侵犯别人的权益,也担心自己的作品在法律上怎样定性、怎样保护。
对当前的法律而言,AI绘画是一种比较新的形态,还没有明确的界定。我和其他同行、用户沟通时发现大家的看法都不同。有些人会觉得在AI创作上维权很麻烦,要付出时间与成本,最后的结果还不一定是好的;也有人认为AI工具生成的内容,应该是归属于公有领域,所有人都可以去用,它不应该有一个著作权,或者其他相应的权利。
在发现作品被侵权后,我决心去打这个官司,赔偿对我们来讲并不重要,我们主要是想看在当前的环境下,人民法院对于AI创作的作品到底是怎么样的态度,能够确立一个怎样的标准。
镜相工作室:5次开庭,这是一个正常的次数吗,每次开庭所做的工作有什么不同?
李昀锴:根据我们的经验,一个案子一般开两次庭比较正常,再复杂一点的可能开3次。这种开5次的,说实话,我也比较少见。
我们的工作主要是放在AI绘画的原理,以及它的操作步骤的阐述和参数操作。第一次开庭,只是各方交换一下意见和证据,这个东西可能要去进行勘验,后面的几次开庭主要是我们去收集资料,以及去进行勘验和展示的过程,最后一次开庭就是把前面的这些事情说清楚。
在第三次和第四次开庭的时候,法院会要求我们把怎么获取AI开源软件,怎么去安装,怎么去设置,怎么输入提示词,最后如何去生成这个图像,如何进行参数微调,变更图像里的内容,这一整个过程都做一下演示。其实正常来说,这些事情3次也可以完事,第一次去交换意见,第二次做演示,第三次就可以结案了,但法院又多开了两次,这让我比较意外。
镜相工作室:法庭给出的考虑是什么呢?
李昀锴:法庭整体的态度是比较谨慎的,希望做更详细的了解和研判。
对于法官来说,他们关注的核心是AI生成作品的具体原理,如何操作等等,这些是需要我们去整理好资料,再给法院去做转述和展示的。
镜相工作室:这个案子有什么审理上的难点吗?
李昀锴:这是一个比较新的案件类型,但它的法律争议点还是比较集中的。
第一,使用AI绘画工具所创作的作品是不是有独创性,是不是属于著作权法上所称的“人的作品”;
第二,如果这是属于著作权法上的作品,它的著作权应该归属于谁?是AI的系统开发者,或者是这种模型的提供者,还是最终的使用者;
第三,被告所使用的作品和原告主张作品是不是具有相似性,或者是不是一致的,如果是,被告应该承担什么责任?
最终法院做了个认定,这是用户使用AI工具创作的作品,但能体现出用户相应的智力劳动,所以说,在本案中的这幅作品,我是拥有著作权的。
在赔偿责任方面,法院认定被告侵犯了署名权和信息网络传播权,判处对方赔偿500元的损失。
镜相工作室:最后有收这份赔偿款吗?
李昀锴:放弃掉了,根本不重要,我们为这个案子所付出的时间成本和其他成本也远高于这500元。
比如我们要翻译相关的用户协议,翻译费就2000多元。这还不算我在案件中投入的时间成本,作为律师对外收费的话,我们一个小时按照1000~2000元的标准去收,这么说就更没法算了。关键还是想看看目前法庭的态度。
镜相工作室:听起来,新技术滋生的纠纷也给法律带来了新的挑战。此前曾有小红书画师控告平台使用他们的作品进行数据训练的案子,你怎么看?
李昀锴:前几天我们法律社群里还有在讨论,自去年他们起诉之后,到现在一直没有消息,大家也在关注这个案子的进展。包括我的案子和小红书画师的案子在内,其实可以归纳几个目前AIGC领域在著作权法上的核心问题。
第一,在大模型的训练阶段,数据使用的合规性。就是说大模型平台是不是可以使用别人的数据来进行训练,界限在哪里。
这种前置性问题对AI行业来说,是比较关键的制约性的问题。如果这个问题解决不了,后面就谈不上输出,也谈不上著作权保护的问题。小红书画师的案子是要解决这方面的问题。
第二,使用AI工具输出的内容是不是侵权。输出的时候,如果和别人的作品十分相似,是不是会构成侵权呢?如果算侵权,又要怎样判断呢?这是第二阶段的问题。
第三个阶段,才会涉及到我们最终输出的作品怎么去利用,怎么去保护。我们刚刚聊的AI绘画侵权案,解决的是第三个阶段的问题。
镜相工作室:这几种类型的案件会有什么不同吗?哪种最难处理?
李昀锴:从我个人的观点来看,处在第一阶段的纠纷很难处理。因为整个大模型训练的过程是一个黑箱操作。实际上,平台用了哪些数据去做了训练,很有可能问它的开发者都说不清楚。在实践的过程中,开发者拿的训练包、语料包,很难去区分说这里面有谁的作品。
当然,前期平台可能会对训练包进行基本的清洗与标注,然后再去做训练,但这个过程是机器自动进行的,就算我作为一个技术人员,可能也没有办法识别哪些具体的数据对大模型产生了作用。这种情况下,怎么去证明谁的作品被平台拿去做了训练,又恰好输出了侵权作品?
这对于自然人来说,其实基本上是不可能完成的任务。
当人的劳动价值被技术稀释
镜相工作室:大模型狂飙一年多,你作为专攻AIGC领域纠纷的律师,所感知到的案件数量有什么变化?
李昀锴:肯定会更多。
现在整个AI工具已经遍布我们的生活。每天早上起床,是智能手机设置的闹钟把你叫醒;上车后,如果开的是智能电车,可能是某系统定制的自动驾驶指令将你送到公司;到了单位之后,同事交给你的工作,你看了一眼,发现这些资料实际上是AI生成的。所以,AI已经无所不在了,随着它在社会各界的应用,发生的纠纷会越来越多,这是一个很自然的现象。
只不过,现在对于AI到底怎么去管理,还没有一些特别明确的规则,现在也还处在一个比较谨慎的阶段,但是案子确实是越来越多。最近,北京互联网法院还判了一个关于AI声音权的案子。
这个案子的被告们用AI合成了一个声音,但最初的数据训练的权限没有搞清楚,据我了解,其中一个被告是通过合法渠道购买了原告的配音作品,但是购买的配音作品是不是能拿去做数据训练,形成一个 AI的虚拟声音,这是另外一个问题。最后法院肯定是不予认可的。
镜相工作室:我也有关注到这个案子,最后宣判被告赔偿对方25万元。
李昀锴:其实这类案件非常难举证,也是遇到比较开明的法官去支持原告的诉求,否则的话,很可能以原告没有尽到举证责任,驳回诉讼请求。
镜相工作室:我们也很好奇,还有没有别的新型案件?比如刚才提到的那两个阶段,一个是源头阶段数据训练的部分,一个是作品的保护部分,那输出环节上有没有相关案例?
李昀锴:近期我们也代理了另外一个案子,是关于 AI抄袭视频的,涉及到了我刚才所说的输出环节的侵权,以及作品怎么去保护的问题。
原告是一个影视行业从业者,他利用AI生成视频的工具生成了一些比较短的视频片段,大概有几十段的不同的短镜头,把这些镜头组合起来,剪了一个山海经主题的短片,发布在视频平台上。过了两个星期,他发现被告发布了跟他一样主题的预告片,每一个镜头都和他的相似,但细节不一样。
比如原告作品画面右侧有一个麒麟,是朝向东的,被告那里也有个麒麟,但麒麟可能就站在山上或者朝向西。不过,被告的文案和配乐是与原告完全一样的,于是原告认为被告使用了AI工具,用图生视频的功能把原告的视频镜头全都重新转化了一遍,做成有微妙区别,但整体观感却十分相似的视频。
我们会认为,这是第一个使用AI工具进行抄袭的案子。
镜相工作室:之前你提到法院对目前AIGC领域的纠纷持谨慎态度,那么在这个AI抄袭案中,有什么论证难点吗?如何证明这个“抄袭”的动作?
李昀锴:这个案子比较特殊,它的文字和音乐都是一样的,如果这个东西也不一样,比如我把你的文字和音乐也都用AI再重新生成一遍,这样的话虽然文字也是相似的,音乐也是相似的,画面也是相似的,但仔细对比还是存在很多不一样的地方,这样就比较棘手。
我们遇到的这个案件,可以说是一个相对笨拙的抄袭,运气比较好。在同样文案和音乐的佐证下,我觉得审理难度不会太大。当然对方肯定会说每一帧镜头实际上都是不一样的。这个时候,法院要去综合判断,要从一般观众的视角去看这两部作品,去判断它的逻辑结构,判断它的主题,判断它的镜头切换的相似程度。
镜相工作室:两个作品之间,细节不全然相同,但约等于一致的状况也很烦人。
李昀锴:说白了,AI可以让人们更方便去“创作”。我不知道你们最近用搜索引擎检索的时候,有没有一个明显的感觉,现在搜到的垃圾越来越多了,因为好多内容都是用AI生成的,平台有激励计划,帮他去填充内容,就给你一定的激励,而有了AI工具之后,这些东西是可以批量生产的。
这个案例背后反映了一个现象,就是现在AI工具可能侵蚀创作领域了。最近,我发现好几个杂志在征稿的时候,会明确拒绝所有AI生成文章的,投稿作者要保证原创。这也说明,他们在征稿过程中会发现确实存在用AI洗稿的现象。
镜相工作室:在创作中使用AI工具的情况中,还会出现其他纠纷吗?
李昀锴:比如可能构成合同欺诈。至少在当前的社会舆论范围之下,大家会认为,AI生成的东西和人本身去创作的东西,价值是不一样的。
前一段时间,我在社交平台上看到有人在维权,说他买了一位某美院学生创作的版画,买家以为是亲笔画的,是具有收藏价值的,结果买到之后发现这些画极有可能是AI生成,然后直接3D打印出来的。
社交平台有很多网友找出来的证据,比如说一副发行于2023年7月,名为《巨蟹座》,以蓝色为主色调的螃蟹图画,被人发现与一个陶瓷博主在2021年发布的蓝色螃蟹图样相似。有很多这样的例子,许多购买版画的买家要求退款。
这件事可能还没上升到具体的法律纠纷,但其实是可能构成合同欺诈的。消费者购买时不知道这个作品是打印的,甚至连创作都依靠了AI,机器生产带来的价值无法与价格匹配。
镜相工作室:我听下来觉得,在产品层面,衡量AI与人生产价值的关键点之一是时间标准。
李昀锴:是的。比如用AI绘图加上打印的话,一小时就能生产几百张,但艺术家亲手去创作则需要耗费更多时间。可工业上的产品从耐用性上来说,其实是高于手工制作的,可能工业的产品会更实用,人亲手创作的作品能够凝聚一些精神。
如果将来技术能够平权的话,更多人可以实现人机共创,AI从一个很少人掌握的工具,变成了所有人触手可得的工具。AI可以根据艺术家的指示去操作,那么这个时候会不会减损人的价值呢?我不太好说。
普通人如何捍卫数据安全?
镜相工作室:刚才我们聊自证困境时,提到了数据训练是其中最难证明的环节,有什么具体的案例吗?
李昀锴:有一个我看到的帖子可以分享。贴主想找到一家国内企业的联系方式,但通过互联网检索没有找到,他问了某个大模型工具,结果这个大模型直接给出了一个联系方式,这个电话是能打通的,他联系上了这家企业。
镜相工作室:故事貌似是个好结局,但实际上是有问题的。
李昀锴:如果这件事是真实存在的,那么我们可以看到目前大模型企业在数据训练上是存在很大问题的。照理讲,这种涉及到电话号码的隐私信息应该在训练前期就清洗出去,不可能把它喂到大模型里面。而且,大模型的数据逻辑是向量数据,只要吃进去的信息,是很难精确到具体位置把信息删除的。
镜相工作室:能解释一下“向量数据”吗?
李昀锴:大模型的向量数据就和我们人的生物信息是一样的。如果我设置的是一个机械密码,我这个密码丢了,大不了重新修改密码。但是我的指纹信息,不可能再进行更改。这里的个人隐私信息也是一样的,只要被训练进大模型了,将来可能也没有办法修改。
现在我们使用的所有大模型的用户协议里面都会约定,用户所有输出内容平台都是会拿去学习的。它默认的条款里面都有这一条,因为有用户的输入和输出,平台才能去改进大模型。
拿一个普通的工作场景举例,如果有员工在不注意的情况下,将涉及到商业秘密的资料喂给大模型,那么就有造成数据泄漏的风险。
镜相工作室:这听起来很恐怖,因为普通人对数据安全并不敏感,可能在不知情的情况下就将某些信息喂了出去。
李昀锴:是的。使用大模型,和同意将数据作为语料授权训练是两回事。所以大家也在探讨,大模型公司应该将授权训练的提示放到更明显的区域。最近有一个叫做《生成式人工智能服务安全基本要求》的文件,里面要求平台应该设置用户可以关闭大模型使用数据学习的选项,这个是应该的。但是,目前还没有一个落地的规定。
镜相工作室:企业之间会有这种数据纠纷吗?相比普通人,企业是不是更有能力去维护数据安全?
李昀锴:暂时国内还没有。关键看立法者怎么去对待这个问题,如果数据训练必须取得别人的授权,将来可能会是一个问题。可能好多公司都会在自己的数据中“下毒”,就是做一些特征点,将来如果数据被非法使用的话,会很明显出现一个“下毒”的数据,这是比较传统的保护知识产权的方式,通过埋点的方式保护数据。
举个例子,之前有一些关于地图的纠纷,实际上好多地图厂商会在一些少有人去的地方做些特征点。比如说这里实际上已经是一个断头路了,但他们会在地图上又延展出来两条小路。这种情况下,就可以证明自己的东西确实是被人用了。
镜相工作室:这是一个有些古典主义的策略。我们每个人现在都处在信息社会,很多数据都无意识暴露在互联网上,那么普通人如何保护自己的数据安全呢?
李昀锴:现在这个行业背景下,至少我觉得大家都要有一个基本的意识,毕竟我们现在数据合规和隐私合规工作一直都在做,各个平台也会公布他们的政策,或者是一些实际使用协议的条款。
对于普通人,至少第一步,所有的条款都要看,需要去理解那些弹窗都是什么。实际上,现在AI给我们提供的这些条款什么的,我也觉得诘屈聱牙,如果有看不懂的部分,其实是可以让AI去消化,再去帮我去复述的。这样的话,我们至少会有一个意识,到底有哪些信息要被平台拿去使用。作为用户可以有一个选择,或者至少知道这些数据和信息要流传到哪里去。
其实大部分企业不会去考虑普通人能不能理解这些条款。因为法律本身是聪明人剥削不聪明人的一种工具。为什么要把条款写的那么复杂呢?因为希望你看不懂,也希望你看了之后懒得去追究。所以慢慢地这会变成一种知识壁垒,变成一种剥削工具。
镜相工作室:是不是在人工智能发展的趋势下,我们的数据也好,创作内容也好,会变得越来越脆弱呢?
李昀锴:从我们的律师的视角来看,ChatGPT去年横空出世时,大家都在探讨是不是人类要被AI取代了,很慌张,实际上我们可以看到并没有。现在虽然看起来有这样那样的纠纷、案件,但其实问题都是变得更加具体的。我们会聚焦于更直接的情况而非想象。
同时AI也提供了更便捷的工具形式,创作者们可以将精力更多放在关键的创意问题上。比如说在我们律师工作中,核心工作是给客户提供一个有效的解决方案,那么在提供方案的过程中,查案例、基础的法律检索,这些工作都可以抛给AI,因为抛给它了,我才有更多的时间去想核心的法律解决方案的问题。
所以,我个人觉得AI反而是一个让人能更集中于创作的工具,不会让核心内容变得脆弱。
(实习生章灿对此文亦有贡献)
本文来自微信公众号:镜相工作室(ID:shangyejingxiang),作者:宋春光
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0