# 热门搜索 #
搜索
程序员最爱的问答网站,给ChatGPT当起了“奶妈”
8489点击    2024-05-08 17:24

Stack Overflow,一个类似知乎、Reddit的老牌网站,因专注于技术问答和社区运营,因此在全球程序员圈内备受欢迎。



然而自从ChatGPT问世以来,该网站的访问量和搜索量都在短时间里骤降,众多程序员开始放弃使用。


为了挽留住用户,Stack Overflow先是封杀ChatGPT,紧接着推出自研AIGC产品,但接二连三的“自救”依然止不住流量的大幅下降。


令人惊讶的是,Stack Overflow突然在本周一宣布与OpenAI签订协议,为其提供数据。


有意思的是,Stack Overflow不仅与OpenAI合作,其丰富的数据也被谷歌的Gemini模型买走。


程序员最大的问答网站,挡不住AI


在程序员圈里,Stack Overflow地位有多高?


简单点说,作为一家老牌问答网站,Stack Overflow已经成立了16年、最高时每月都有2亿台主机访问。


无论一线大厂技术大佬,还是刚入门的计算机小白,只要提出了编程问题,总会有网友挺身而出,提供思路,甚至直接给出最优解的答案。



正是因为有着庞大的数据,Stack Overflow虽然名气比不上Reddit,但也算是圈内人的必备网站。


但事情在ChatGPT横空出世后,开始朝着衰落的方向发展。


在 ChatGPT上线后,迅速有网友发现其出色的代码生成能力,因此“ChatGPT可以取代Google、Stack Overflow”的言论吸引了大批程序员的目光。



然而令人没想到的是,仅仅上线5天后,Stack Overflow反手就把 ChatGPT 给封杀了。


原因是ChatGPT生成的代码错得过于离谱,因此Stack Overflow宣布这些生成垃圾答案的账号都会被封号。


有意思的是,Stack Overflow团队发现,很多用来训练AI模型的数据,其实就是来自Stack Overflow。


如果放任AI机器人生成垃圾回答,那不就等于搬起石头砸自己的脚吗?


虽然Stack Overflow的表态很明确,广大程序员们也能理解,但奈何ChatGPT的体验实在是真香!


最终,面对AI的强势来袭,Stack Overflow的流量也是越来越差,到了2023年6月,浏览量几乎已经是腰斩。


为了止住颓势,Stack Overflow 开始是一系列措施。


先是在7月,技术团队利用自家5800万个问题和答案的数据库,做了一款名为「OverflowAI」的AI 工具,其功能主要围绕着编程,但没有掀起太大的水花。


到了10月,公司CEO宣布解雇了约28%的员工,通过缩减营销预算的方式,为 AI工具持续输血。



不过由于OverflowAI还处于初级测试阶段,面对实力强劲且不断进化的ChatGPT,OverflowAI能做的仅仅是拖延Stack Overflow衰落的速度。


卖数据,真香


在面对ChatGPT的威胁时,Stack Overflow一开始选择使用“防御”的姿态。


但殊不知,这些公开的互联网数据早已被OpenAI等科技公司用“爬虫”等手段进行搜刮,自己不仅要面临用户的流失,更要面临数据的流失。


不过毕竟日访问量摆在那里,Stack Overflow手握着大量优质的数据,倒也成为一笔可以交易的资源。



自《纽约时报》带头起诉OpenAI后,越来越多的新闻媒体和门户网站加入到讨伐OpenAI的队伍中。


在面对版权问题时,科技公司们只能乖乖掏钱为训练数据付费,并承诺不会使用私人数据。


Reddit、Youtube、ShutterStock、Photobucket等网站都是数据交易的受益者,手握大把优质的训练材料,科技巨头们花起钱来也是毫不吝啬。



相比之下,Stack Overflow的数据同样出色,甚至比Reddit这样的综合性网站更加专业。


因此,Stack Overflow CEO也开始学会了向各大科技公司推销自家数据,其中就包括了Google的 Gemini 模型。


或许正是看到了科技公司对于优质数据的渴望,让高层选择来了一次360度的态度大转变,既然用户是回不来了,那至少把钱赚到口袋里。


值得一提的是,Stack Overflow当时强调,该协议并不具有排他性,这就意味着任何科技公司都可以购买同样的数据,剩下就看哪家训练得更好。


据报道称,Stack Overflow 的技术内容将与 OpenAI 的 GPT-4 等模型相结合,通过OverflowAPI访问,未来开发者可以直接通过 OpenAI获得可靠且经过验证的数据,并帮助他们快速找到解决复杂问题的方法。


而Stack Overflow 也能从开发社区收集反馈,确保 AI 开发工具持续改进。


简单点就是说,Stack Overflow与 OpenAI来了一次技术和数据的互换,前者提高了AI能力,后者得到了可靠的数据,两者双赢。


据悉,此次合作将带来的第一组集成功能和能力,预计将于 2024 年上半年发布,这也说明双方的合作其实已经进行了很久。


隐私还是大问题?


目前,越来越多的社区网站开始加入到AI训练中,包括百度贴吧的“弱智吧”,在一次研究里显现出不俗的数据训练效果,一度冲上热搜。


对于访问量不断下降的传统内容网站们,优质的数据确实是一个可以长期进行的“副业”。


另外,AI固然很香,但不是没有缺点。


自Stack Overflow开始转向开发AI能力后,开发者社区的一些成员对这一变化表示反对,他们对人工智能生成的信息的有效性、以及数据隐私表示担忧。


也有专家指出,AI会导致更多错误代码被推送到代码库中,甚至放大软件项目中现有的漏洞和安全问题。


但对于“饥渴”的AI公司们,不断膨胀的数据消耗问题已经足够头疼。


而网站的帮助,刚好可以为自己分担一些风险。


本文来自微信公众号“镁客网”(ID:im2maker),作者:MKWjh


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。

项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai