“生成式 AI 污染了数据“
“生成式 AI 污染了数据,我认为没有人掌握关于 2021 年后人类使用语言的可靠信息”。近日,开源项目 wordfreq 的创建者 Robyn Speer 在目睹了 GPT 迅速发展 3 年后的局面,做出了这一评价。
随着 GenAI 的快速扩张,很多人认为它正在毁掉互联网。Robyn Speer 在忍无可忍的情况下,决定停更 wordfreq 项目,以示抗议。
同时,他也对 OpenAI 和 Google 发出了严厉批评,表示希望这些公司为主导 GenAI 工具的开发付出高昂代价。
Image Creator from Designer
Wordfreq 是一个开源的 Python 库,专门用于统计和分析多种语言中的单词频率,最早发布于 2015 年。由 Robyn Speer 开发,它的核心功能是提供不同语言中单词的出现频率信息,帮助研究者、开发者和语言学家进行文本分析和自然语言处理任务。
Wordfreq 支持多种语言,包含的频率数据来自维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源,覆盖范围广泛。
截至目前,该项目在 GitHub 上有 1300 个 Star。随着俚语和流行文化的变化以及语言的演变,Wordfreq 可用于分析不断变化的语言习惯,并且是研究此类事物的学者非常重要的资源。
作为这个项目的开发者,Robyn Speer 在 GitHub 项目特别写了一则文档,向使用它的用户详细地解释了“为什么 wordfreq 不会再更新”。
Robyn Speer 坦言,首要的原因便是——生成式 AI 污染了数据。
在 Robyn Speer 看来,开放网络(通过 OSCAR)曾是 wordfreq 的数据来源之一。如今,互联网上充斥着由大模型生成的杂乱文本,这些文本没有人写,且不传达任何内容。将这些杂乱的文本纳入数据会导致词频出现偏差。
或许有人说,以前的网站上也充斥着不少垃圾信息。Robyn Speer 也承认了这一点,但也解释称,wordfreq 的数据来源中虽然以前也有垃圾信息,但它是可控的,且通常可以识别,而大模型生成的文本则伪装成有意图的真实语言,尽管实际上没有任何意图,且它们输出的内容无处不在。
针对这一点,也在英国曼彻斯特大学创新管理与政策教授 Philip Shapira 之前做的一项研究中得到了验证。他发现,ChatGPT 倾向于过度使用某些单词或短语,比如说“delve”。同时,他表示,尽管“delve”的使用率在 2022 年之前一直在逐渐增加,但在 2023 年(ChatGPT 广泛可用时)出现了明显的增长,并在 2024 年继续增长,由于 ChatGPT 对“delve”这个词表现出了非同寻常的偏爱,导致该词的整体频率提升了一个数量级,而人们从未如此热衷于使用它。
“在写这篇文章之前,我一直在研究如何运行更新 wordfreq 数据源的工具”,Robyn Speer 说道,“wordfreq 不仅仅关注正式的书面语言。它特别从两个来源收集了更多的对话式语言用法:Twitter 和 Reddit”。
只不过,经过时间以及 AI 大模型的“洗礼”,Twitter 和 Reddit 这两个老牌网站似乎都发生了巨大的变化。
彼时,Twitter 允许第三方免费访问其部分“firehose”数据流,不过使用有一定的限制,譬如 Twitter 不允许 Robyn Speer 在他收集数据的公司(Luminoso)之外分发这些数据。当时 wordfreq 使用了这些数据作为输入构建了词频,但收集到的数据并不属于 Robyn Speer。
现在,Twitter 在被马斯克收购之后,它的公共 API 已关闭,甚至名字都被 X 取而代之。Robyn Speer 表示,“即便 X 提供了其原始数据流(实际上并没有),那里也找不到任何有价值的信息。”
除了 X 之外,Reddit 也停止提供公共数据归档,现在他们将归档内容以高价出售,此前有媒体报道称,Reddit 对每 5000 万次 API 请求收取 1.2 万美元的费用,相对于许多同行而言,这是一个较高的价格,也是很多第三方开发者无法负担的费用。Robyn Speer 称,只有 OpenAI 愿意支付这个费用。
多重因素夹杂在一起,Robyn Speer 坦言,不想再参与其中了。
曾经凭借自己的兴趣,我开发了 wordfreq。我以一种能够有益于自然语言处理工具的方式从事语料库语言学。
我所熟知的“自然语言处理”领域如今已难寻踪影。它几乎全被生成式 AI 吞噬。虽然其他技术依然存在,但生成式 AI 占据了整个领域,吸引了所有的资金。很少能看到不依赖 OpenAI 和 Google 控制的闭源数据的 NLP 研究,这两家公司我早已鄙视它们。
wordfreq 是通过收集大量多语言文本构建的。这在过去是一件非常合理的事情,而且不太可能有人会对此提出异议。但现在,文本收集工具大多用于训练生成式 AI,而人们对此非常有戒心。如果有人收集你的书籍、文章、网站或公开帖子的所有文字,很可能是为了制造一个剽窃机器,将你的话据为己有。
因此,我不想再做任何可能与生成式 AI 混淆或可能对生成式 AI 有益的事情。
OpenAI 和谷歌可以自己去收集他们自己的数据,我希望他们为此付出极高的代价。毕竟,他们自己造成了这个局面。
事实上,不止 wordfreq 受到波及,我们也亲证在生成式 AI 的影响下:
对此,有不少网友感同身受,在 HN 评论道:
我很遗憾这种情况让原作者对 NLP 社区感到灰心,我也是其中的一员,我只想说“我们并不都是那样的”,虽然这确实是一个趋势,我们也正处于炒作的顶峰(甚至可能已经略微过了)。
关于网络被生成 AI 内容污染的抱怨非常及时,而且这已经不是第一次了,之前还有为了操纵 PageRank 而设立的垃圾内容农场等乱象。这可能意味着手工策划的高质量网站列表会重新获得价值(有些人称其为“小网络”)。
每一代网络都需要应对其特定时代的对抗性机制,而当前的网络阶段也不例外。
也有人认为:
实际上早在大型语言模型(LLM)出现之前,网络已经被谷歌那些没有明文规定的 SEO 规则污染了。单句段落、多次重复关键词,以及对“可索引性”的关注超过了可读性,这些早就让网络成为一个不太理想的分析来源。
这也使网络成为不太理想的训练数据来源。然而,LLM 仍然在被喂以那些为 Googlebot(谷歌爬虫)而非人类写的文章。机器学习/大型语言模型是写作污染的第二个迭代。第一个迭代是人类为企业的机器人写作,而不是为其他人类写作。
随着 Robyn Speer 宣布停更 wordfreq 消息的发酵,其本人补充说道:
我认为大多数找到它的人都能理解我的出发点。在此,我想强调几点。
Robyn Speer 总结道,「更新它反而会使情况变得更糟,因此我选择不更新。它随着时间会变得过时,但不会变得更糟。这对于互联网上的东西来说,算是一个不错的结局!」
来源:
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
https://news.ycombinator.com/item?id=41578483
文章来自于微信公众号“CSDN”,作者“屠敏”
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai