程序员最爱的问答网站，给ChatGPT当起了“奶妈”

11193点击 2024-05-08 17:24

Stack Overflow，一个类似知乎、Reddit的老牌网站，因专注于技术问答和社区运营，因此在全球程序员圈内备受欢迎。

然而自从ChatGPT问世以来，该网站的访问量和搜索量都在短时间里骤降，众多程序员开始放弃使用。

为了挽留住用户，Stack Overflow先是封杀ChatGPT，紧接着推出自研AIGC产品，但接二连三的“自救”依然止不住流量的大幅下降。

令人惊讶的是，Stack Overflow突然在本周一宣布与OpenAI签订协议，为其提供数据。

有意思的是，Stack Overflow不仅与OpenAI合作，其丰富的数据也被谷歌的Gemini模型买走。

程序员最大的问答网站，挡不住AI

在程序员圈里，Stack Overflow地位有多高？

简单点说，作为一家老牌问答网站，Stack Overflow已经成立了16年、最高时每月都有2亿台主机访问。

无论一线大厂技术大佬，还是刚入门的计算机小白，只要提出了编程问题，总会有网友挺身而出，提供思路，甚至直接给出最优解的答案。

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

正是因为有着庞大的数据，Stack Overflow虽然名气比不上Reddit，但也算是圈内人的必备网站。

但事情在ChatGPT横空出世后，开始朝着衰落的方向发展。

在 ChatGPT上线后，迅速有网友发现其出色的代码生成能力，因此“ChatGPT可以取代Google、Stack Overflow”的言论吸引了大批程序员的目光。

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

然而令人没想到的是，仅仅上线5天后，Stack Overflow反手就把 ChatGPT 给封杀了。

原因是ChatGPT生成的代码错得过于离谱，因此Stack Overflow宣布这些生成垃圾答案的账号都会被封号。

有意思的是，Stack Overflow团队发现，很多用来训练AI模型的数据，其实就是来自Stack Overflow。

如果放任AI机器人生成垃圾回答，那不就等于搬起石头砸自己的脚吗？

虽然Stack Overflow的表态很明确，广大程序员们也能理解，但奈何ChatGPT的体验实在是真香！

最终，面对AI的强势来袭，Stack Overflow的流量也是越来越差，到了2023年6月，浏览量几乎已经是腰斩。

为了止住颓势，Stack Overflow 开始是一系列措施。

先是在7月，技术团队利用自家5800万个问题和答案的数据库，做了一款名为「OverflowAI」的AI 工具，其功能主要围绕着编程，但没有掀起太大的水花。

到了10月，公司CEO宣布解雇了约28%的员工，通过缩减营销预算的方式，为 AI工具持续输血。

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

不过由于OverflowAI还处于初级测试阶段，面对实力强劲且不断进化的ChatGPT，OverflowAI能做的仅仅是拖延Stack Overflow衰落的速度。

卖数据，真香

在面对ChatGPT的威胁时，Stack Overflow一开始选择使用“防御”的姿态。

但殊不知，这些公开的互联网数据早已被OpenAI等科技公司用“爬虫”等手段进行搜刮，自己不仅要面临用户的流失，更要面临数据的流失。

不过毕竟日访问量摆在那里，Stack Overflow手握着大量优质的数据，倒也成为一笔可以交易的资源。

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

自《纽约时报》带头起诉OpenAI后，越来越多的新闻媒体和门户网站加入到讨伐OpenAI的队伍中。

在面对版权问题时，科技公司们只能乖乖掏钱为训练数据付费，并承诺不会使用私人数据。

Reddit、Youtube、ShutterStock、Photobucket等网站都是数据交易的受益者，手握大把优质的训练材料，科技巨头们花起钱来也是毫不吝啬。

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

相比之下，Stack Overflow的数据同样出色，甚至比Reddit这样的综合性网站更加专业。

因此，Stack Overflow CEO也开始学会了向各大科技公司推销自家数据，其中就包括了Google的 Gemini 模型。

或许正是看到了科技公司对于优质数据的渴望，让高层选择来了一次360度的态度大转变，既然用户是回不来了，那至少把钱赚到口袋里。

值得一提的是，Stack Overflow当时强调，该协议并不具有排他性，这就意味着任何科技公司都可以购买同样的数据，剩下就看哪家训练得更好。

据报道称，Stack Overflow 的技术内容将与 OpenAI 的 GPT-4 等模型相结合，通过OverflowAPI访问，未来开发者可以直接通过 OpenAI获得可靠且经过验证的数据，并帮助他们快速找到解决复杂问题的方法。

而Stack Overflow 也能从开发社区收集反馈，确保 AI 开发工具持续改进。

简单点就是说，Stack Overflow与 OpenAI来了一次技术和数据的互换，前者提高了AI能力，后者得到了可靠的数据，两者双赢。

据悉，此次合作将带来的第一组集成功能和能力，预计将于 2024 年上半年发布，这也说明双方的合作其实已经进行了很久。

隐私还是大问题？

目前，越来越多的社区网站开始加入到AI训练中，包括百度贴吧的“弱智吧”，在一次研究里显现出不俗的数据训练效果，一度冲上热搜。

对于访问量不断下降的传统内容网站们，优质的数据确实是一个可以长期进行的“副业”。

另外，AI固然很香，但不是没有缺点。

自Stack Overflow开始转向开发AI能力后，开发者社区的一些成员对这一变化表示反对，他们对人工智能生成的信息的有效性、以及数据隐私表示担忧。

也有专家指出，AI会导致更多错误代码被推送到代码库中，甚至放大软件项目中现有的漏洞和安全问题。

但对于“饥渴”的AI公司们，不断膨胀的数据消耗问题已经足够头疼。

而网站的帮助，刚好可以为自己分担一些风险。

本文来自微信公众号“镁客网”（ID:im2maker），作者：MKWjh

程序员最爱的问答网站，给ChatGPT当起了“奶妈”

关键词: chatGPT , AI问答 , Stack Overflow , AI助手

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI爬虫

【开源免费】ScrapeGraphAI是一个爬虫Python库，它利用大型语言模型和直接图逻辑来增强爬虫能力，让原来复杂繁琐的规则定义被AI取代，让爬虫可以更智能地理解和解析网页内容，减少了对复杂规则的依赖。
项目地址：https://github.com/ScrapeGraphAI/Scrapegraph-ai