哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law
6761点击    2024-12-23 10:00

“当人类使用 AI 作为入口,搜索引擎的消费者将只剩下 AI”


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


不像西部世界的 AI 那么智能,现在的 AI 经常没办法满足我的小众需求。


我开始以为是模型能力的问题,但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。


想不到制约大模型发展的是居然是现有的搜索引擎!


现在的搜索引擎面向的主要人群都是人,那么有没有一个面向 AI 的搜索引擎?


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


于是上 X 一搜,还真的发现了一家叫 Exa 的公司做了类似的事情!居然还获得了 Nvidia 和 YC 投资!!


比较有意思的是,这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。


经过一轮官网挖掘,我发现这玩意很有潜质,而且不单能作为搜索 API 给 AI 用,也很适合普通人。


HR 的全网捞人神器


以前给公司招聘的时候,经常找不到合适的人选:每天限制打招呼的个数,发短信还要开会员按条收费!


我试了下用 Exa 搜索人,以下是我给出的文字要求:


Exa 在一杯 ☕️ 的时间里找到了上面的结果。


而且,竟然直接用表格的方式给我呈现了出来——


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


你还可以点击具体的 URL 找到对应的人的领英档案,感觉满意的时候还可以下载整个数据集。


作为对比,以下是 Google 和 OpenAI 在面对同样请求时的结果:


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


好用了不只一点,默默为逝去的那些数据整理的夜晚表示不值 😭


于是我开始好奇到底咋做到的呢?


将整个互联网内容向量化


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


我搜了下 Exa 的技术博客,发现它用到了现在很流行的语义搜索,也就是 RAG(Retrieval-Augmented Generation)。


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


但是区别在于,别人用语义搜索搜索的是自己公司或者垂直领域的数据,但是 Exa 更进一步:


Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。


为什么要这样做?答案是:巧妇难为无米之炊。


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


通过研究,Exa最近还提出了 AI 搜索界的 Scaling Law——


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


下面的图表展示了在搜索过程中,随着计算量的增加,匹配结果数量的变化情况。


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


从图中的数据点可以看出,随着搜索时计算量的增加,匹配结果的数量也在增加。


结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息!


  • 例如,当用户搜索“制作大模型芯片的初创公司”时,Exa 的搜索引擎会预测接下来可能出现的链接,而不是简单地匹配关键词,从而提供更符合用户需求的结果。
  • 再比如,一位专注于科技领域的用户在搜索“最新的智能手机技术创新”时,Exa 会优先展示与该用户兴趣高度相关的专业评测、技术分析和行业动态等内容;
  • 对于一位普通消费者,搜索同样的关键词时,Exa 可能会更侧重于展示通俗易懂的产品介绍、用户体验分享和购买指南等信息。


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


下面是一个通用的搜索流程:


  1. 选中你想要的数据类型:公司、人、文章,或者自定义你想要的类型
  2. 输入搜索的文字要求
  3. 喝一杯咖啡 ☕️(CEO:能不能给我一首歌的时间?)
  4. 等待搜索引擎匹配相关 Embedding 并返回结构化的数据表


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


可以看到在这个例子里,Exa 找到了 1057 个结果,并且返回了 108 个和搜索要求相关的结果,你甚至不需要写哪怕一行 Python 代码。


烧钱造护城河


有人肯定会有疑问,既然语义搜索那么好,为什么 Google 不直接将其全量应用到自身产品上?


答案是因为语义搜索贵,而且搜索起来慢


首先,编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页,但与谷歌索引的约一万亿个网页相比,这只是一小部分。


此外,Websets 的搜索速度较慢,有时需要几分钟才能返回结果。


然而,Exa 的联合创始人兼首席执行官威尔·布里克(Will Bryk)却认为这是值得的,让我们来看看他是怎么说的:


以下视频来源于


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


我相信随着技术的不断发展和完善,语义搜索将对未来的信息检索领域产生深远影响。


连 Nvidia 和 YC 都看中了这个领域的潜力,这才有了标题说到的投资史上最慢搜索产品的故事。


当然我更担心的问题是,单个搜索这么耗费算力,这个引擎免费开放看来是遥遥无期 😭


那么重点来了?那搜索的时候到底应该怎么选搜索引擎?


灵活选用搜索引擎


即使 Exa 带来了全新的搜索体验,但它也并不是一个银弹(万能膏药)。


基于 Embedding 的搜索(如 Exa)在具体匹配时候会稍逊一筹,我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法,但如果试图用 Embedding 表示整个句子或页面文本,会丢失很多信息。


例如,将《战争与和平》表示为单个 Embedding,会失去故事中发生的几乎所有具体事件,只留下其体裁和时期的大致感觉。


关于选用合适的搜索引擎类型,我自己的体验是:


1.当你不确定你在找什么的时候:可以用 Exa,例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”,Exa 的表现优于其他搜索引擎。


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


2.当你很确定具体的搜索关键字:使用传统的搜索引擎,可以快速匹配。如果你想要带总结的答案,可以使用以下的搜索:


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law


最后


虽然 Exa Websets 正式版本还没有上线,但我已经抢先加入了试用队列。


期待用 Exa 找出房子大,消费低,旅游方便,适合地理套利,网好,最重要是适合中国胃的 N 个旅居城市!


感兴趣的小伙伴也可以在这里加入试用队列:


https://exa.ai/websets


懒得加入的也可以留言自己想搜索的东西,等我拿到资格后给大家出一期 👀


文章来自微信公众号 “夕小瑶科技说”,作者“DIVA”


哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law

关键词: AI , AI搜索 , Exa , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/