
“免费午餐”时代终结,AI巨头要交“过路费”了?
“免费午餐”时代终结,AI巨头要交“过路费”了?马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到2.0时期。和这对欢喜冤家类似的,是国外出版商集团和AI巨头之间的相爱相杀——一方面有大出版商要和AI公司合作,另一方面也有出版商誓死要把AI巨头告破产。
马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到2.0时期。和这对欢喜冤家类似的,是国外出版商集团和AI巨头之间的相爱相杀——一方面有大出版商要和AI公司合作,另一方面也有出版商誓死要把AI巨头告破产。
大家好,我是袋鼠帝前几天收到一个客朋友的咨询:“有没有什么爬虫软件推荐?”
本月初,代表全美2200多家新闻机构的新闻/媒体联盟(News/Media Alliance)发起“支持负责任AI”运动,呼吁监管机构强制科技巨头为AI产品使用的内容付费。但就在美国媒体抱团保卫自己的知识产权时,单打独斗的维基百科则宣布向AI厂商“投降”。
AI爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的「DDoS攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。
字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……
时下,AI 爬虫把各种网站折腾得不轻,不是让其崩了就是卡了,导致运行也变得极为不稳定,哪怕更改了用于规定搜索引擎抓取工具可以访问网站上哪些网址的 robots.txt 文件、屏蔽已知的爬虫标识(User-Agent)、甚至过滤可疑流量,它们还是能绕过封锁,伪造身份、用住宅 IP 代理,怎么都拦不住......
昨天看到一个非常有意思的事情。