ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
做语料交易平台,Cloudflare要为站长“主持公道”
4715点击    2024-10-08 17:18

这样一套组合拳打下去,AI厂商大概率就会乖乖向网站付费了。


大模型遭遇数据荒这件事,已经从遥遥领先的预言变成了一个所有AI厂商都不得不面对的难题。为了解决这个问题,谷歌前CEO埃里克・施密特更是曾语出惊人,表示AI创业公司可以先通过AI工具盗取知识产权,然后再雇佣律师来处理法律纠纷。但就在AI行业出现“语料危机”的兵荒马乱里,也有厂商发现了商机。



日前,全球知名的内容分发网络(CDN)Cloudflare宣布将在明年推出交易市场,允许AI公司付费获取网站内容的抓取权限。据Cloudflare方面的描述,网站运营者可以将自己的网站放在这个市场中,如果有AI开发商愿意付费购买其内容,则可以向后者提供接口以供抓取网站的内容用于AI大模型的训练。


进入2024年之后,随着Common Crawl数据集、The Pile语料库等开源数据库的开发殆尽,AI厂商在获取语料数据这件事上也完全可以用“吃相难看”来形容。例如苹果、英伟达、OpenAI在训练大模型时使用了YouTube未经授权的数据,AI独角兽Anthropic更是直接分布式拒绝服务攻击(DDoS)小网站等让人大跌眼镜的操作,也开始堂而皇之的出现。



当然,除了这些上不得台面的玩法之外,业界也在尝试用“合成数据”来训练大模型,试图用这种“左脚踩右脚上天”的模式来使得大模型摆脱对于语料数据的依赖。可惜随着一篇《Nature》上的论文问世,使用AI生成的数据集训练大模型会污染它们的输出,无法避免“模型崩溃”(model collapse)的缺陷,也让合成数据这条路径的未来蒙上了阴影。


如此一来,向内容方索取数据就又变成了AI厂商的唯一选项。现在的情况,是AI厂商对于数据的需求永无止境,但他们需要将有限的预算花在算力、电力、水资源等刚性需求的资源上,以至于“偷数据”就变成了一个降本增效的手段。同时,一般的网站虽然有数据、但也缺乏保护数据的能力。



站在网站站长的角度,一方面自己网站的内容被AI厂商无偿抓取,另一方面AI厂商爬虫进行的高频次抓取已经与DDoS没区别了,导致自己还要付出更高的带宽和流量清洗成本。由此不愿付钱的AI厂商与想要将数据卖个好价钱的内容方之间,自然也就产生了不可调和的矛盾。


这时候,双方都需要一个类似Cloudflare这样的角色站出来当“裁判员”。作为CDN提供商,Cloudflare的竞争力来源于在全球拥有超过152个数据中心,这些数据中心战略性地分布在全球各地,以确保其业务覆盖所有主要地区,再加出色的网络技术,也使得全世界目前有20%的互联网流量都经过了该公司的网络代理。



为了向用户提供高速网络服务,Cloudflare建设了一个专用的高容量光纤网络,用于在全球的数据中心之间传输流量,这也使得其能够完全控制内部和外部流量的路由,以便更有效地管理流量。而为全球中小网站提供一个低成本接入公开网络的能力,这就是Cloudflare的底气。


就如同谷歌提供了一个广告竞价平台,得以让全球的站长通过经营网站获得收入一样,Cloudflare现在就是打算复刻谷歌曾经的做法,建立一个内容拍卖平台,让AI厂商像广告主一样为他们感兴趣的内容付费。毕竟全球1/5的流量会经过Cloudflare的分发网络,所以也意味着后者确实也拥有类似谷歌搜索引擎的地位。



与此同时,为了保证这个交易市场得以运行下去,Cloudflare还宣布为使用其服务的所有网站,包括免费托管在Cloudflare上的网站提供AI审计工具 (Cloudflare AI Audit) ,从而向网站站长报告AI厂商的爬虫何时访问网站、抓取数据的IP地址、抓取频次,以及其他相关数据。


借助AI审计工具,哪些AI厂商尝试抓取了网站的数据也就变得一目了然。并且为了配合这个交易市场,Cloudflare方面表示AI审计工具与目前为站长提供的一键屏蔽AI爬虫功能不同,其提供了更灵活的屏蔽策略。比如说,一旦某网站与OpenAI达成合作,站长就可以单独为OpenAI的GPTBot提供“绿色通道”。



不得不说,作为业界知名的“赛博菩萨”,Cloudflare确实是想用户之所想、急用户之所急,这样一套组合拳打下去,AI厂商大概率就会乖乖地向网站站长付费了。


文章来自于“三易生活”,作者“三易菌”。




关键词: AI , 模型训练 , 数据集 , Cloudflare
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/