在科技界,快速崛起和巨额交易总是备受关注。本周,MongoDB 宣布以 2.2 亿美元的价格收购 Voyage AI——一家刚成立 17 个月、在嵌入(embedding)和重排序(reranking)模型领域处于行业领先地位的 AI 初创公司。
显然,此次收购不仅标志着 MongoDB 在 AI 领域的重大布局,也凸显了当前 AI 市场对高质量技术的迫切需求。
据悉,Voyage AI 由斯坦福大学计算机科学家、清华大学 2012 届姚班校友马腾宇(Tengyu Ma)于 2023 年 9 月创立,致力于解决生成式 AI 中的“幻觉”问题。
所谓“幻觉”,是指 AI 模型在缺乏足够数据理解或上下文的情况下,生成虚假或误导性信息。而“幻觉”问题,在医疗、金融、法律等高精度要求的场景中尤为突出,严重限制了 AI 在关键任务中的应用——Voyage AI 正是为解决这一问题而生。
如开头所说,Voyage AI 的核心技术在于其先进的嵌入和重排序模型。这些模型能够从高度专业化的文本和非结构化数据(如法律文档、金融报告、企业知识库等)中提取语义信息,从而显著提高 AI 模型的准确性和可靠性。
在过去短短一年半的时间里,Voyage AI 不仅组建了一支来自斯坦福、MIT、加州大学伯克利分校和普林斯顿大学的世界级 AI 研究团队,还发布了多款高质量模型,包括通用多语言嵌入模型(voyage-3-large)和代码检索模型(voyage-code-3)。这些模型在公开基准测试中表现优异,同时大幅降低了向量存储成本,为企业提供了高效且经济的 AI 解决方案。
实际上,在被 MongoDB 收购前约六个月,Voyage AI 已完成 2000 万美元的 A 轮融资,使其总融资额达到 2800 万美元。其中,风投公司 CRV 领投了本轮融资,参与者包括 Snowflake、Databricks、Pear VC、Tectonic Ventures 等,且 CRV 普通合伙人 Murat Bicer 也加入了 Voyage AI 的董事会。
当时 Murat Bicer 表示,CRV 看重的是 Voyage AI 拥有一支非常强大的技术团队,并且在生成式 AI 领域拥有罕见的经验深度:“在 AI 领域,真正拥有数十年(而非几年)经验的团队非常罕见。当这些人专注于某个项目时,他们的创新将推动整个市场向前发展。”
如今看来,MongoDB 选择收购 Voyage AI 的背后,很大程度上也有这方面的考量:“他们在尖端嵌入式模型和检索架构方面的专业知识将增强 MongoDB 的 AI 能力,以解决构建和扩展 AI 应用中最棘手的问题。”
作为现代应用程序数据库的领导者,MongoDB 一直致力于为企业提供灵活、可扩展的数据管理解决方案。然而,随着 AI 技术的快速发展,传统数据库在支持 AI 应用方面的局限性逐渐显现,尤其是在应对幻觉问题时。
根据 MongoDB 的官宣内容来看,此次其收购的核心目标就是将 Voyage AI 的技术与自身强大的数据库基础设施相结合,从而为企业提供更高效、更准确的 AI 驱动解决方案。具体而言,即利用 Voyage AI 的模型能显著提升信息检索的准确性和相关性,减少 AI 应用中的“幻觉”现象。
MongoDB 坚信,Voyage AI 的加入将为其注入强大的 AI 能力。MongoDB 首席执行官 Dev Ittycheria 表示:“AI 有潜力改变每一个行业,但其应用受到了幻觉的阻碍。通过将 Voyage AI 的先进搜索和检索技术整合到我们的数据库中,MongoDB 将帮助企业轻松构建可信赖的 AI 应用,从而产生深远的商业影响。”
不仅如此,Voyage AI 创始人马腾宇亦此次收购充满期待。
“从大型企业的角度来看,现代 AI 的核心在于从大规模非结构化数据中提取有意义的语义洞察。”他解释道,MongoDB 的文档模型就非常适合这一需求,因为它能够无缝表示结构化、半结构化和非结构化数据。
基于此,马腾宇表示:“我们坚信,下一代 AI 应用将构建在 MongoDB 之上,它将成为 AI 驱动系统的理想基础。为此,加入 MongoDB 让我们能向更广泛的受众提供模型,以前所未有的方式释放全球非结构化数据的价值。”
因此,此次 MongoDB 收购 Voyage AI 不仅是技术上的整合,更是一种愿景的融合。在官宣博文中,马腾宇特别提到,MongoDB 首席执行官 Dev Ittycheria 和首席产品官 Sahir Azam 对 AI 的信念和远见,也正是 Voyage AI 决定加入 MongoDB 的重要原因。
参考链接:
https://investors.mongodb.com/news-releases/news-release-details/mongodb-announces-acquisition-voyage-ai-enable-organizations
https://blog.voyageai.com/2025/02/24/joining-mongodb/
https://www.inc.com/chloe-aiello/voyage-ai-just-sold-for-220-million-after-launching-less-than-two-years-ago/91151766
文章来自微信公众号 “ CDSN ”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI