
万字打造RAG应用必知:BM25算法实战解析,让你不落人后
万字打造RAG应用必知:BM25算法实战解析,让你不落人后文章主要是实现了中英文版本的BM25算法(主要就是分词部分有区别),算法可能也有缺陷,恳请看见的大佬指点指点,虽然也有比我实现的要更优秀的第三方库,比如bm25s
文章主要是实现了中英文版本的BM25算法(主要就是分词部分有区别),算法可能也有缺陷,恳请看见的大佬指点指点,虽然也有比我实现的要更优秀的第三方库,比如bm25s
由前百度高管 Eric Jing 和 Kay Zhu (之前分别是百度小度的 CEO 和 CTO)联合创立的 AI 搜索引擎 Genspark,在去年完成 6000 万美金种子轮后,据称已经完成了 1 亿美金的 A 轮融资。
没完了,刚刚接入DeepSeek的百度,又双叒叕搞事情了。
最初,查询扩展是为那些靠关键词匹配来判断相关性的搜索系统设计的,比如 tf-idf 或其他稀疏向量方案。这类方法有些天然的缺陷:词语稍微变个形式,像 "ran" 和 "running",或者 "optimise" 和 "optimize",都会影响匹配结果。虽然可以用语言预处理来解决一部分问题,但远远不够。技术术语、同义词和相关词就更难处理了。
知乎直答默默掏出了自己的“底牌”。为啥这么说呢?因为知乎不仅有自己的AI模型,还攒了十多年的中文高质量知识库,再加上真实的问答场景作为AI的“实战训练场”,简直就是AI界的“学霸”。有了DeepSeek-R1的加持,知乎直答的推理能力直接拉满,传统搜索看了直呼“内行”,妥妥成了AI时代的“搜索界天花板”。
“张小龙觉得对这个功能自己最满意的地方之一,就是一经发布几乎没有改进余地而稳定运行了十年。”极客公园创始人张鹏在与张小龙对话后,这样总结微信的产品逻辑。这一点在微信成为真正意义上的“国民社交App”之后,也没有发生改变。
AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——随便给个话题,就能生成有深度的研究报告。
早在2024年5月,DeepSeek-V2就凭借GPT-4的百分之一的价格,被称作“价格屠夫”、“AI界的拼多多”,彼时,它带来的冲击还停留在底层模型竞争中的定价等具体动作。
Perplexity CEO Arvin Srinivas 在今天 CNBC 采访中谈到了 Perplexity 与 DeepSeek 的整合,以及作为美国初创公司如何确保用户数据安全、避免审查问题,并提出了其与 TikTok 合并的战略构想。
DeepSeek千般好,万般好,就是联网搜索还用不了.但先别急,这块拼图也被国产AI搜索玩家用自己的能力补全了: 就在刚刚,秘塔AI搜索宣布融合了DeepSeek-R1满血版。