ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
这世界究竟怎么了?硅谷大佬公开支持AI公司“偷”数据
5911点击    2024-08-20 09:56

“乱世”其实早已到来,只不过这次是公开承认了这个现实。


到2028年互联网上所有高质量的文本数据都将被使用完毕,以及AI厂商正陷入数据荒的说法,无疑是近期AI行业的热点话题。如何获得更多的数据与获得更多算力,更是并列为当下AI厂商最为头疼的问题。对此,谷歌前CEO埃里克・施密特在8月14日在斯坦福大学进行的演讲中语出惊人,他表示AI创业公司可以先通过AI工具盗取知识产权,然后再雇佣律师来处理法律纠纷。



埃里克・施密特以一直深陷风波的TikTok为例,“如果TikTok被禁,我建议你们每个人都做一个TikTok的副本,偷走所有的用户、偷走所有的音乐,把偏好放进去,在接下来的30秒内制作这个程序、发布它”。紧接着他还进一步解释到,“如果你是一位硅谷企业家,你会做的是如果产品起飞了,那么就雇用一大群律师去收拾残局,但如果没有人使用你的产品,即便你窃取了所有的内容也没关系。”


不得不说,作为谷歌的前任CEO,埃里克・施密特开出的这个药方确实颇具“硅谷精神”。要知道就在数周前,《经济学人》杂志在一篇题为《AI 公司很快将耗尽大部分互联网数据》的文章中就指出到,2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。



合成数据此前被业界认为是一个有效的解决方案,既然人类产出的数据跟不上AI大模型迭代的需要,不如直接使用AI生成的数据。可是一篇7月末发表在《Nature》上的论文证实,使用AI生成的数据集来训练大模型会污染它们的输出,并无法避免“模型崩溃”(model collapse)问题。这篇论文一出,AI厂商对于使用合成数据必然会更加的谨慎。


只是Common Crawl数据集、The Pile语料库等开源数据库,已经哺育了GPT-4 、Gemini等一众知名或不知名的大模型。现在的情况,是免费、开源,且质量有保障的数据库已经被开发殆尽,而需要付费的数据则随处可及,比如X、Reddit,以及各新闻媒体显然都非常乐于出售自家的数据。



就在埃里克・施密特建议AI初创企业去偷数据的同一时间,《Nature》再度曝出一个大瓜,那就是以Taylor&Francis、Wiley为代表的一大批学术出版商,已经向微软等厂商提供了付费访问自家论文的机会,以便后者使用相关科研论文来训练大模型。可问题是,恨不得一分钱掰成两半花的AI初创企业,往往不愿意为数据付费。


对于一家AI初创企业来说,运营成本无外乎算力、人力,以及数据。在AGI没有真正实现之前,雇佣AI科学家、程序员来训练AI是必不可少的工作,找英伟达购买计算卡也属于硬性支出,毕竟AI初创企业不可能去台积电的工厂里偷走芯片。事实上,埃里克・施密特口中AI初创企业可以先偷数据、再用律师解决问题,恰恰证明了他确实是谷歌成长为科技巨头的重要推手,是一个合格的硅谷人。




在硅谷有一句经典的格言,“Fake it until you make it”,翻译过来就是“假模假样,直到像模像样”。从上世纪乔布斯创立苹果、到扎克伯格打造出社交网络,再到马斯克缔造特斯拉,一代又一代的硅谷人都是在这条格言的引领下闯出了偌大的事业。


先吹嘘自己的想法、向投资人卖出一个好故事,吸引到资本和人才后再努力追赶目标,并最终实现,就是硅谷创业者们的秘籍,夸大未来、掩盖失败、捏造数据、忽视常识在硅谷可谓是司空见惯,比如此前被乔布斯挂在嘴边的“海盗精神”,不就是关注目标、不择手段、打破常规,甚至可以将道德扔一边。



当下,AI创业者最大的难题就是求生存。随着AI投资热的退潮以及AI泡沫论的兴起,投资者对于AI初创企业的态度不仅不再狂热,反而变得愈发审慎,也使得他们想要获得融资的难度变得越来越大。在这样的情况下,只有能拿出性能更好大模型的初创企业,才能获得维持存续的资金。


如果不打破常规,继续按部就班的结果,就是被敢于不走寻常路的竞争对手超越。所以埃里克・施密特的话对于AI初创企业来说就是“金玉良言”,如果产品失败、企业本身自然就要关门大吉,也就不会有人来寻求侵权赔偿;可一旦一飞冲天,手里有了钱的企业也能用“诉辩交易”来解决问题。



事实上,在埃里克・施密特说出这番惊人之语前,就已经有不少AI初创企业在践行“偷窃”数据的做法了。“乱世”早已到来,只不过作为硅谷大佬的埃里克・施密特现在公开承认了这个现实而已。毕竟对数据有着无尽渴求的AI初创企业用技术手段攻破数据拥有者的防御,后者纷纷筑起“坞堡”几乎就是不可避免的未来。


文章来源“三易生活”,作者“三易菌”