图片来源:Harvey
热门法律AI 工具 Harvey 于 5 月 13 日在博客中宣布,将不再仅依赖 OpenAI 的基础模型,开始采用 Anthropic 和谷歌的基础模型。
此举意义重大,因为Harvey 是 OpenAI 创业基金早期投资组合中最成功的公司之一。该基金由 OpenAI 关联运营,主要支持基于 AI 技术(尤其是 OpenAI 自身技术)开发产品的企业。尽管 Harvey 表示并未放弃 OpenAI,只是增加了更多模型和云服务选择,但这对其主要竞争对手而言仍是一次重大胜利。
2022 年 12 月披露的信息显示,Harvey 是 OpenAI 创业基金首批投资的四家初创企业之一,当时该基金仍由 OpenAI 的 CEO Sam Altman 执掌。(首批投资组合还包括 Descript、Mem 和 Speak。)
据 2025 年 2 月披露,这家估值已达30 亿美元的初创企业在红杉资本领投的 3 亿美元 D 轮融资中,吸引了 Coatue、Kleiner Perkins 及 OpenAI 基金等知名机构的跟投,自成立以来实现了爆发式增长。
值得注意的是,谷歌旗下风投机构 GV 在 2024 年 7 月领投了 Harvey 的 1 亿美元 C 轮融资(OpenAI 基金也参与了此轮)。但 Harvey 并未在将谷歌企业风投纳入股东名册后立即采用其 AI 模型(GV 还参与了 Harvey 的 D 轮融资)。
那么,是什么促使Harvey 现在决定超越 OpenAI 的模型?这家初创公司内部开发的基准测试"BigLaw"显示,各类基础模型在法律任务上的表现日益精进,且某些模型在特定任务上更胜一筹。
Harvey 认为,与其投入资源训练模型,不如直接采用其他供应商(如通过亚马逊云服务的谷歌和 Anthropic)的高性能推理基础模型,再针对法律市场进行微调。
公司表示,采用多样化模型也将助力Harvey 开发 AI 智能体。
Harvey 在博文中写道:“不到一年内,七款模型(含三款非 OAI 模型)在 BigLaw Bench 基准测试中已超越最初评测的 Harvey 系统。”
Harvey 的基准测试还显示,不同基础模型在特定法律任务上表现各异。例如,谷歌 Gemini 2.5 Pro 在“法律文书起草”方面表现“卓越”,但因无法完全理解“传闻证据等复杂证据规则”,在“庭前口头辩论撰写”等审前任务中“表现欠佳”。
根据Harvey 的测试,OpenAI 的 o3 在审前任务上表现优异,Anthropic 的 Claude 3.7 Sonnet 紧随其后。HARVEY 内部基准测试结果:
图片来源:Harvey
Harvey 在博客中宣布,将加入公开模型基准性能排行榜的行列。该榜单将评估主流推理模型在法律任务上的表现。公司不仅会提供综合排名,还将发布由“顶尖律师提供对模型性能的细致分析,这些见解无法通过单一分数基准体现”的研究报告。
因此,OpenAI 支持的 Harvey 不仅采用了竞争对手的模型,还加大了对包括 Google 在内的支持者持续证明自身实力的压力。不过 OpenAI 在这方面无需过多担忧。尽管 AI 基准测试日益复杂且略带政治色彩,但 OpenAI 在这个领域依然表现卓越。
Harvey 的CEO Winston Weinberg 在向 TechCrunch 发表的声明中表示:“我们非常幸运能有 OpenAI 作为 Harvey 的投资方和产品开发的关键合作伙伴。同时,随着我们持续服务全球客户需求,为客户提供更多选择也让我们倍感振奋。”
参考资料
https://techcrunch.com/2025/05/13/anthropic-google-score-win-by-nabbing-openai-backed-harvey-as-a-user/
编译:ChatGPT
文章来自于“Z Potentials”,作者“techcrunch”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner