因违规收集AI训练数据，谷歌在法被罚2.5亿欧元

9687点击 2024-03-28 17:03

谷歌就此成为了第一家因为训练数据而被罚款的人工智能公司。

谷歌已同意支付2.5亿欧元（约合人民币19.6亿元）以解决其在法国的纠纷，因其违反了自己做出的有关在搜索结果中引用和显示内容以及训练谷歌的人工智能聊天机器人Bard（现为Gemini）时通知法

国新闻出版商和向其付费的承诺。

据澎湃新闻报道，谷歌就此成为了第一家因为训练数据而被罚款的人工智能公司。

01 法国监管机构为何开出2.5亿欧元罚单

法国负责竞争监管的机构法国竞争管理局（Autorité de la Concurrence，ADLC）日前对谷歌母公司Alphabet Inc.、谷歌公司（Google LLC）及其爱尔兰和法国子公司（Google Ireland Ltd、Google France（以下统称“谷歌”）处以2.5亿欧元的罚款，原因是该公司未能遵守2022年6月21日第22-D-13号决定中具有约束力的一些承诺。

ADLC表示，这份签发时间为2024年3月15日的决定，是ADLC四年来就此案发布的第四份决定。这些决定是在2019年7月24日法国通过了有关相关权的法律（取代2019年4月17日欧盟版权及相关权指令）的背景下做出的，旨在为新闻机构、出版商和数字平台之间的平衡谈判创造必要条件。ADLC称，该立法框架旨在重新界定这些参与者之间的价值分享，以解决几年来影响新闻业的深刻变化，特别是数字受众的增长，伴随着印刷发行量的下降，以及广告价值的很大一部分现在由主要数字平台占据的事实。

因违规收集AI训练数据，谷歌在法被罚2.5亿欧元

该案处理经过（来源：ADLC）

ADLC称，在2020年4月以禁令形式下令采取临时措施（2020年4月9日第20-MC-01号决定）后，其发现谷歌没有遵守这些禁令，于2021年7月对其处以5亿欧元的罚款，并命令其遵守最初的禁令（2021年7月12日第21-D-17号决定）。

随后，在2022年6月21日的第22-D-13号决定中，ADLC接受了谷歌提出的结束竞争问题的七项承诺，以确保谷歌与出版商正在进行的谈判是“平衡”的，为期五年，可延长一次。在此背景下，ADLC批准任命Accuracy为监督受托人，以监督谷歌对承诺的实施情况。

在此次做出的这份最新决定中，ADLC对谷歌处以罚款，理由是谷歌违反了与监督受托人合作的承诺，并且未能遵守其七项承诺中的四项，这些承诺的目的是保证以下原则：

在三个月内，根据透明、客观和非歧视性标准进行真诚谈判（承诺1和4）；

向新闻机构和出版商提供透明地评估其相关权报酬所需的信息（承诺2）；

采取必要措施，确保谈判不会影响谷歌与新闻机构和出版商之间的其他经济关系（承诺6）。

ADLC表示，关于谷歌于2023年7月推出的人工智能服务“Bard”（即现在的Gemini），ADLC特别发现Bard使用新闻机构和出版商的内容来训练其大模型，而没有通知新闻机构、出版商或ADLC。谷歌随后将其人工智能服务对相关内容的使用与受保护内容的显示联系起来，但谷歌没有为新闻机构和出版商提出技术解决方案，来供其选择在不会影响在其他谷歌服务上显示受相关权保护的内容的前提下不让Bard使用其内容，直至2023年9月28日才为出版商提供选择退出的简单选项，从而阻碍了新闻机构和出版商谈判报酬的能力。

“在此之前，想要选择退出这种用途的新闻机构和出版商必须插入一条指令，反对谷歌对其内容进行任何抓取，包括在谷歌的搜索、发现和谷歌新闻服务上，”ADLC指出，并警告说，“在未来，ADLC将特别关注谷歌实施的选择退出系统的有效性。

鉴于这些违规行为，ADLC已对谷歌处以2.5亿欧元的罚款。ADLC称，由于谷歌承诺不对事实提出异议，因此它能够从和解程序中受益。谷歌还提出了一系列纠正措施，以解决ADLC确定的某些违规行为。

02 谷歌的回应

谷歌对罚款不满意，称罚款“不成比例”，部分原因是罚款“没有充分考虑到我们为回应和解决所提出的担心所做的努力——在一个很难设定路线的环境中，因为我们无法预测接下来的风向”。

因违规收集AI训练数据，谷歌在法被罚2.5亿欧元

谷歌新闻出版合作董事总经理Sulina Connal在博客中的回应

根据谷歌的说法，各地的监管机构在开发搜索工具和人工智能模型时都需要明确对内容的合理使用进行定义，以便搜索公司和人工智能制造商始终知道“我们为谁付什么费”。谷歌认为，目前在法国，谷歌的承诺范围已经从一般的新闻出版商转变为现在还包括专业出版物、列表和比较网站。

ADLC同意“将新闻出版物用作人工智能服务的一部分是否符合相关权法规的保护条件的问题尚未解决”，但指出“至少”谷歌被要求“告知出版商其内容用于其Bard软件。

关于Bard/Gemini，谷歌表示，它“自愿推出了一种名为Google-Extended的新的技术解决方案，使著作权人更容易选择退出Gemini，而不会影响他们在搜索中的存在。谷歌现在还致力于更好地向出版商解释“我们基于生成式人工智能的产品如何工作，以及'选择退出'如何工作”。

谷歌表示，它同意和解，“因为现在是时候继续前进”，并“专注于将人们与优质内容联系起来的可持续方法的更大目标，以及与法国出版商进行建设性合作上了”。

“今天的罚款主要与谷歌从新闻内容中获得多少价值的分歧有关，”谷歌的博客称，“缺乏明确的监管指导和反复的执法行动使得我们很难与出版商进行谈判，或者计划我们未来如何在法国投资新闻产业。

03 谷歌同意做出哪些改变？

在谈判方面，ADLC发现，谷歌不仅未能就报酬向出版商保持透明，而且未能向ADLC通报必要的信息来便于ADLC监督谷歌是否履行了公平支付出版商报酬的承诺。在某种程度上，“为了保证更好的沟通”，谷歌已同意在其巴黎分部任命一名讲法语的代表，以及ADLC建议的其他步骤。

根据ADLC的声明，谷歌在谈判中似乎表现得很草率，不符合非歧视标准，并且对不同情况下的出版商一视同仁，并且没有提及“所有可以为谈判方带来收入的服务”。

“根据ADLC的说法，不考虑内容之间吸引力的差异并不能准确反映每个新闻机构和出版商对谷歌收入的贡献。”ADLC说。

同样有问题的是，谷歌曾设定了100欧元的最低报酬门槛，但现在已经同意放弃。

ADLC发现，这一门槛“就其原则而言，在低于一定门槛的出版商之间引入了歧视，无论其各自的情况如何，它们都被任意分配为零报酬。

ADLC的结论是，谷歌决定就欠出版商的间接收入支付“一次性付款”，这“将间接收入限制在计算其财务报价的边际份额”，而实际上“间接收入代表了在其服务上显示受保护内容所获得的收入的最大份额”。

ADLC表示，谷歌还根据1%的流量样本进行计算，这“可能不到总收入的1%。作为和解协议的一部分，谷歌同意现在基于100%的流量进行计算。

“谷歌将向出版商解释他们的个人报价是如何计算的，”ADLC说，“谷歌将在其报价中添加详细的解释，说明它们是如何分别计算的。”

为了使谈判更加公平，谷歌今后将在“计算提供给出版商的金额”时，用自己的展示数据替换掉“来自SimilarWeb的数据”。它也将不再使用统一费率来计算“其他直接收入”，而是准确反映显示内容所带来的经济效益。这种好处可能包括那些触发后续搜索或引导用户在搜索引擎上花费更多时间的出版商内容，从而为谷歌生成更多个人数据。

“谷歌将向出版商提供更多信息，以便他们能够有效地评估他们的报价，”ADLC解释纠正措施时说，“谷歌将扩大向出版商提供信息的范围和详细程度”，包括“就Bard而言”。

谷歌已经同意进行所有这些更改以及更多更改，只是针对其中一项被提议的更改——建议谷歌“在调整的基础上计算直接收入，同时考虑到搜索结果中显示的内容的位置”，谷歌警告说，可能会“导致对出版商的付款减少”。

“因此，谷歌不推荐这种方法”，但“在这一点上”服从“ADLC。

04 不只谷歌，全球都在处理权利人与AI纠纷

虽然世界各地的出版商一直在质疑他们的内容中有多少被用于训练人工智能模型，并为从谷歌的Gemini到OpenAI的ChatGPT等人工智能工具提供支持，不过法国出版商很快就会确切地知道Gemini是如何引用他们的内容的。

“谷歌将向出版商和新闻机构提供一份叙述性摘要，详细说明谷歌如何使用出版物的内容在法国运营Gemini。这家科技巨头还将提供有关出版商如何控制其内容如何用于为Gemini提供支持的更多信息——从人工智能模型训练到Gemini的输出。

ADLC表示，“这些信息还将解释出版商如何可以”选择不用于人工智能工具的内容，“这种'选择退出'的影响”是什么，以及“可以适用”哪些限制。ADLC警告说，选择退出人工智能内容使用不会影响出版商与谷歌的交易。

法国并不是唯一一个关注平台如何处理出版商新闻内容的国家。据半岛电视台报道，西班牙竞争监管机构去年也开始调查谷歌“涉嫌影响新闻机构和新闻出版物的反竞争行为”。

在美国，《纽约时报》和其他出版商起诉了OpenAI和微软，理由是这些内容用于训练为ChatGPT、Copilot和ChatGPT的“用必应浏览”（Browse with Bing）提供支持的人工智能模型。

最近，《纽约时报》反对微软的驳回申请，该申请认为美国最高法院的VCR裁决应该注定《纽约时报》的OpenAI诉讼失败。《纽约时报》声称，微软和OpenAI“盗用了近一个世纪的版权内容，而没有向出版商支付公平的赔偿”，要求法院驳回微软整个的驳回申请，否则应当许可《纽约时报》修改诉讼请求。

文章来自微信公众号“知产力”，作者：布鲁斯

因违规收集AI训练数据，谷歌在法被罚2.5亿欧元

关键词: 谷歌AI , 模型训练 , Gemini , AI监管

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/