“当人类使用 AI 作为入口,搜索引擎的消费者将只剩下 AI”
不像西部世界的 AI 那么智能,现在的 AI 经常没办法满足我的小众需求。
我开始以为是模型能力的问题,但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。
想不到制约大模型发展的是居然是现有的搜索引擎!
现在的搜索引擎面向的主要人群都是人,那么有没有一个面向 AI 的搜索引擎?
于是上 X 一搜,还真的发现了一家叫 Exa 的公司做了类似的事情!居然还获得了 Nvidia 和 YC 投资!!
比较有意思的是,这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。
经过一轮官网挖掘,我发现这玩意很有潜质,而且不单能作为搜索 API 给 AI 用,也很适合普通人。
以前给公司招聘的时候,经常找不到合适的人选:每天限制打招呼的个数,发短信还要开会员按条收费!
我试了下用 Exa 搜索人,以下是我给出的文字要求:
Exa 在一杯 ☕️ 的时间里找到了上面的结果。
而且,竟然直接用表格的方式给我呈现了出来——
你还可以点击具体的 URL 找到对应的人的领英档案,感觉满意的时候还可以下载整个数据集。
作为对比,以下是 Google 和 OpenAI 在面对同样请求时的结果:
好用了不只一点,默默为逝去的那些数据整理的夜晚表示不值 😭
于是我开始好奇到底咋做到的呢?
我搜了下 Exa 的技术博客,发现它用到了现在很流行的语义搜索,也就是 RAG(Retrieval-Augmented Generation)。
但是区别在于,别人用语义搜索搜索的是自己公司或者垂直领域的数据,但是 Exa 更进一步:
Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。
为什么要这样做?答案是:巧妇难为无米之炊。
通过研究,Exa最近还提出了 AI 搜索界的 Scaling Law——
下面的图表展示了在搜索过程中,随着计算量的增加,匹配结果数量的变化情况。
从图中的数据点可以看出,随着搜索时计算量的增加,匹配结果的数量也在增加。
结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息!
下面是一个通用的搜索流程:
可以看到在这个例子里,Exa 找到了 1057 个结果,并且返回了 108 个和搜索要求相关的结果,你甚至不需要写哪怕一行 Python 代码。
有人肯定会有疑问,既然语义搜索那么好,为什么 Google 不直接将其全量应用到自身产品上?
答案是因为语义搜索贵,而且搜索起来慢
首先,编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页,但与谷歌索引的约一万亿个网页相比,这只是一小部分。
此外,Websets 的搜索速度较慢,有时需要几分钟才能返回结果。
然而,Exa 的联合创始人兼首席执行官威尔·布里克(Will Bryk)却认为这是值得的,让我们来看看他是怎么说的:
以下视频来源于
我相信随着技术的不断发展和完善,语义搜索将对未来的信息检索领域产生深远影响。
连 Nvidia 和 YC 都看中了这个领域的潜力,这才有了标题说到的投资史上最慢搜索产品的故事。
当然我更担心的问题是,单个搜索这么耗费算力,这个引擎免费开放看来是遥遥无期 😭
那么重点来了?那搜索的时候到底应该怎么选搜索引擎?
即使 Exa 带来了全新的搜索体验,但它也并不是一个银弹(万能膏药)。
基于 Embedding 的搜索(如 Exa)在具体匹配时候会稍逊一筹,我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法,但如果试图用 Embedding 表示整个句子或页面文本,会丢失很多信息。
例如,将《战争与和平》表示为单个 Embedding,会失去故事中发生的几乎所有具体事件,只留下其体裁和时期的大致感觉。
关于选用合适的搜索引擎类型,我自己的体验是:
1.当你不确定你在找什么的时候:可以用 Exa,例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”,Exa 的表现优于其他搜索引擎。
2.当你很确定具体的搜索关键字:使用传统的搜索引擎,可以快速匹配。如果你想要带总结的答案,可以使用以下的搜索:
最后
虽然 Exa Websets 正式版本还没有上线,但我已经抢先加入了试用队列。
期待用 Exa 找出房子大,消费低,旅游方便,适合地理套利,网好,最重要是适合中国胃的 N 个旅居城市!
感兴趣的小伙伴也可以在这里加入试用队列:
https://exa.ai/websets
懒得加入的也可以留言自己想搜索的东西,等我拿到资格后给大家出一期 👀
文章来自微信公众号 “夕小瑶科技说”,作者“DIVA”
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/