这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

6986点击 2024-08-20 09:56

“乱世”其实早已到来，只不过这次是公开承认了这个现实。

到2028年互联网上所有高质量的文本数据都将被使用完毕，以及AI厂商正陷入数据荒的说法，无疑是近期AI行业的热点话题。如何获得更多的数据与获得更多算力，更是并列为当下AI厂商最为头疼的问题。对此，谷歌前CEO埃里克・施密特在8月14日在斯坦福大学进行的演讲中语出惊人，他表示AI创业公司可以先通过AI工具盗取知识产权，然后再雇佣律师来处理法律纠纷。

埃里克・施密特以一直深陷风波的TikTok为例，“如果TikTok被禁，我建议你们每个人都做一个TikTok的副本，偷走所有的用户、偷走所有的音乐，把偏好放进去，在接下来的30秒内制作这个程序、发布它”。紧接着他还进一步解释到，“如果你是一位硅谷企业家，你会做的是如果产品起飞了，那么就雇用一大群律师去收拾残局，但如果没有人使用你的产品，即便你窃取了所有的内容也没关系。”

不得不说，作为谷歌的前任CEO，埃里克・施密特开出的这个药方确实颇具“硅谷精神”。要知道就在数周前，《经济学人》杂志在一篇题为《AI 公司很快将耗尽大部分互联网数据》的文章中就指出到，2028年互联网上所有高质量的文本数据都将被使用完毕，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

合成数据此前被业界认为是一个有效的解决方案，既然人类产出的数据跟不上AI大模型迭代的需要，不如直接使用AI生成的数据。可是一篇7月末发表在《Nature》上的论文证实，使用AI生成的数据集来训练大模型会污染它们的输出，并无法避免“模型崩溃”（model collapse）问题。这篇论文一出，AI厂商对于使用合成数据必然会更加的谨慎。

只是Common Crawl数据集、The Pile语料库等开源数据库，已经哺育了GPT-4 、Gemini等一众知名或不知名的大模型。现在的情况，是免费、开源，且质量有保障的数据库已经被开发殆尽，而需要付费的数据则随处可及，比如X、Reddit，以及各新闻媒体显然都非常乐于出售自家的数据。

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

就在埃里克・施密特建议AI初创企业去偷数据的同一时间，《Nature》再度曝出一个大瓜，那就是以Taylor&Francis、Wiley为代表的一大批学术出版商，已经向微软等厂商提供了付费访问自家论文的机会，以便后者使用相关科研论文来训练大模型。可问题是，恨不得一分钱掰成两半花的AI初创企业，往往不愿意为数据付费。

对于一家AI初创企业来说，运营成本无外乎算力、人力，以及数据。在AGI没有真正实现之前，雇佣AI科学家、程序员来训练AI是必不可少的工作，找英伟达购买计算卡也属于硬性支出，毕竟AI初创企业不可能去台积电的工厂里偷走芯片。事实上，埃里克・施密特口中AI初创企业可以先偷数据、再用律师解决问题，恰恰证明了他确实是谷歌成长为科技巨头的重要推手，是一个合格的硅谷人。

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

在硅谷有一句经典的格言，“Fake it until you make it”，翻译过来就是“假模假样，直到像模像样”。从上世纪乔布斯创立苹果、到扎克伯格打造出社交网络，再到马斯克缔造特斯拉，一代又一代的硅谷人都是在这条格言的引领下闯出了偌大的事业。

先吹嘘自己的想法、向投资人卖出一个好故事，吸引到资本和人才后再努力追赶目标，并最终实现，就是硅谷创业者们的秘籍，夸大未来、掩盖失败、捏造数据、忽视常识在硅谷可谓是司空见惯，比如此前被乔布斯挂在嘴边的“海盗精神”，不就是关注目标、不择手段、打破常规，甚至可以将道德扔一边。

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

当下，AI创业者最大的难题就是求生存。随着AI投资热的退潮以及AI泡沫论的兴起，投资者对于AI初创企业的态度不仅不再狂热，反而变得愈发审慎，也使得他们想要获得融资的难度变得越来越大。在这样的情况下，只有能拿出性能更好大模型的初创企业，才能获得维持存续的资金。

如果不打破常规，继续按部就班的结果，就是被敢于不走寻常路的竞争对手超越。所以埃里克・施密特的话对于AI初创企业来说就是“金玉良言”，如果产品失败、企业本身自然就要关门大吉，也就不会有人来寻求侵权赔偿；可一旦一飞冲天，手里有了钱的企业也能用“诉辩交易”来解决问题。

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

事实上，在埃里克・施密特说出这番惊人之语前，就已经有不少AI初创企业在践行“偷窃”数据的做法了。“乱世”早已到来，只不过作为硅谷大佬的埃里克・施密特现在公开承认了这个现实而已。毕竟对数据有着无尽渴求的AI初创企业用技术手段攻破数据拥有者的防御，后者纷纷筑起“坞堡”几乎就是不可避免的未来。

文章来源“三易生活”，作者“三易菌”

这世界究竟怎么了？硅谷大佬公开支持AI公司“偷”数据

关键词: AI , 模型训练 , 数据集 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file