“属于传统搜索的时代,已经彻底落幕了。”
2024年2月,全球IT分析与评估机构Gartner在一份报告中如此判断。同时该机构预测,到2026年,传统搜索引擎的搜索量将减少25%。
与此同时,从最近公布的财报来看,2024年Q2,百度的在线营销收入为192亿元,同比降低 2%。这是连续6个季度以来,在互联网广告大盘保持增长的情况下,百度在线营销收入首次陷入下滑。
作为曾经国内广告收入最高的互联网公司,百度早已不复昔日辉煌,但最近一则消息还是引发了市场对这家公司的重新关注。8月22日,百度百科开始屏蔽谷歌/必应等大多数搜索引擎的抓取,阻止他们利用百度百科内的内容用于训练AI。
面临营收的下滑,百度禁用其他搜索引擎对百度内容的抓取,意欲何为?AI搜索能够拯救百度吗?面对抖音、小红书等垂直搜索的竞争,传统搜索巨头未来的路在何方?
2024年3月,谷歌因违规使用出版商内容训练大模型Gemini,被法国政府处以2.5亿欧元的罚款。7月23日,AI搜索引擎Perplexity被杂志巨头康泰纳仕集团告上法庭。类似的冲突同样发生在中国,8月16日,知网发函警告AI搜索初创公司秘塔科技,称其未经许可在AI搜索结果中呈现知网的学术内容,构成严重侵权。
细看以上因为AI搜索带来的纠纷,搜索引擎与内容平台之间的冲突存在着共性的问题:
1.内容平台只有内容的传播权,没有所有权
无论是文章还是视频,版权都属于原创作者,平台只有传播权。因此,如果AI搜索公司使用了相关内容进行AI训练,应当由内容作者亲自维权,而不是平台。此前《纽约时报》起诉OpenAI就是最好的例子。
2.以索引库的形式进行整合,构成侵权
目前的AI搜索大多会将从内容平台抓取的内容以索引库的形式进行储存。当用户搜索时,再利用AI技术将实时结果和索引库内容整合在一起提供答案。这种提前储存的方式,侵犯了内容平台的信息网络传播权。
3.技术原因导致过拟合问题,构成侵权
在少部分情况下,AI模型会因为训练技术问题出现过拟合问题,导致输出的结果内容和训练内容高度相似,而这种照搬、“洗稿”的行为,实质上是从对AI对网站内容的合理使用变成了抄袭,同样侵权。
从这三点出发,再回看百度这件事。百度百科作为一个百科全书形式的内容平台,既拥有部分百科词条的版权所有权,也拥有相关内容的传播权。因此,百度百科禁止谷歌、必应等引擎的抓取,既存在版权保护方面的合理性,也不失为AI搜索时代的一种“自我保护”。
事实上,长期以来,内容平台的利益与搜索引擎都是深度绑定的,搜索引擎平台带来流量入口,内容平台提供优质内容的同时通过广告等方式盈利,已经成为某种“默契”。然而,随着AI的兴起,新产业的出现打破了旧的秩序。用户获取信息的来源从网站链接变为了AI引擎,内容网站的利益受到了影响,因此才会产生矛盾与纠纷。
谷歌CEO桑达尔·皮查伊曾表示,“搜索引擎的目的从来都不是搜索,而是提供优质内容。”AI搜索则恰好捕捉到了这个痛点:传统搜索有着较长的信息获取链路,而AI则代替人脑,省去了用户在不同网站之间跳转、分辨和总结的时间。
同样的关键词,AI搜索可以将视频、图片、文字、语音等多样化的内容呈现在观众面前,而不再单一地局限于网站这一种形式,搜索结果更准确。此外,AI搜索在广告内容的呈现上也能给用户带去更好的体验。传统搜索引擎中的竞价排名严重影响了有效信息的密度,进而影响到用户的搜索体验。
正是由于以上优点,AI搜索正在逐渐占据传统搜索的市场份额。中信证券研报显示,2024年3月AI产品的访问量中,AI搜索占比达24.2%,成为第二大使用场景。从这个角度来看,在不远的将来,AI搜索代替传统搜索会是大势所趋。
事实上,百度在限制其他搜索引擎对百度百科的内容进行抓取的同时,自身也在不断地加大对AI搜索的投入。目前百度的文心大模型日均调用量超6亿次,二季度百度搜索中已有18%的结果由AI生成。
然而,百度AI对搜索的影响仍处在早期阶段,“短时间内不仅难以展现出对业绩的提升,甚至可能对收入产生负面影响。”放眼整个行业,除了百度以外,其他人都在加快自己的步伐。
在国际市场有谷歌、微软、OpenAI、Perplexity。在国内市场,不仅有360AI、秘塔AI和天工AI三大搜索引擎,还有Kimi、文心一言、豆包等内嵌AI搜索功能的聊天类模型产品。
不难看出,在这一轮AI重构搜索的行业热潮中,在谷歌、微软、百度等科技巨头以外,还出现了许多的大模型企业。这就意味着在原有的谷歌、必应、百度之外,行业内又多出了许多“搅局者”。百度当前的压力可想而知。
从用户的角度来讲,AI搜索的确存在市场需求,也确实能够改善现有的搜索体验,但是无论是AI搜索还是传统搜索引擎,本质上都是通用搜索,而通用搜索本身正在弱化。
而根据国外数据机构statcounter数据,在PC端,百度的渗透率在最近的一年内出现了下滑。此前,百度已不再是中国第一大桌面搜索引擎 这一消息就曾登上热搜。
与之相对的,是抖音,小红书,知乎一类的内容平台对搜索的布局。
2020年年初,字节跳动推出头条搜索,用“搜索+信息流”的内容模式直接对标百度。此后三年间,字节跳动陆续推出了悟空搜索和闪电搜索,2024年8月,抖音搜索独立App上线,使用基于抖音打造的内容搜索引擎,成为字节旗下第4个独立的搜索应用。
此消彼长的原因,主要是公域的内容质量出现了下降,优质的内容逐渐被抖音,小红书,知乎等内容App分走。用秘塔AI首席运营官王益为的话说,“衣食住行、买点什么,这些优质数据小红书和抖音并不会向外公开,而且都是大家主动贡献上去的,我们拿不到,传统搜索引擎也拿不到。”
以视频大模型为例,此前,快手和OpenAI都发布了视频大模型。如今,快手已有超过160万人使用过快手的视频生成大模型可灵AI,累计生成超1600万条视频,而OpenAI的Sora至今还没有公布下一步的进展,也没有实现规模化的应用。在这背后,快手拥有海量的短视频内容,可以说是居功至伟。
从这个角度来看,AI搜索真正的对手早已不再是传统搜索,而是垂直搜索。传统搜索引擎公司的对手也并非AI初创公司,而是抖音、小红书之类的内容厂商。
对于谷歌、百度这样的传统巨头来说,如何利用自己的AI优势和垂直APP的内容优势去竞争,会是下一个阶段需要重点考虑的问题。哪些场景是有了AI才可能做到的?哪些功能更能够满足用户的需求?这就考验各大科技巨头们产品经理的能力了。
文章来源于“港股研究社”,作者“港股研究社”
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】metaso-free-api是一个逆向秘塔AI搜索的开源项目,它支持超强检索超长输出,支持高速流式输出、超强的联网搜索以及零配置部署。
项目地址:https://github.com/LLM-Red-Team/metaso-free-api