Casetext 是一家已经做了 12 年的公司,最初用技术提高法律领域的文件处理效率,从 UGC 网站转型到 AI 技术方案,顺利找到 PMF,ARR 2000 万美元,估值 1 亿美元。
GPT-4 发布后,Casetext 发布了 AI 法律助手 CoCounsel,两个月内把公司估值抬到 6.5 亿美元,被 Thomson Reuters 收购。
这不仅证明了在垂类行业,AI 产品尤其是法律类产品大有可为,更重要的是,CoCounsel 也证明了所谓的 ChatGPT 套壳,本身也有着很强的壁垒和商业想象。
最近,在 YC 的一场访谈中,Casetext 创始人 Jake Heller 畅谈了 Casetext 从创立到 AI 转型的过程,探讨了如何打造一家 10 亿美元的垂直领域 AI 公司,以及法律 AI 如何控制输出的实战经验。
一些有意思的点:
YC:现在很多优秀的 AI 创业公司,很多都是垂直领域的 AI 智能体(Agent)。而我认为 Jake 是目前运营最成功的垂直 AI 智能体公司的创始人。那么,你是怎么走到今天这一步的?
Jake Heller:首先我必须说,像很多事情一样,有一定的运气成分。在我们长达十年的创业旅程中,我们深入投资 AI 和自然语言处理,并与包括 OpenAI 在内的许多研究实验室建立了密切联系。当他们开始测试早期版本时,我们并没有意识到那个会变成现在的 GPT-4,但我们很早就得到了一个非常早期的预览版本。我永远不会忘记我第一次看到它的时候。我们大概花了 48 小时,决定让公司里的每一个人,改变他们当时正在做的项目,100% 投入到我们称之为 CoCounsel 的新产品上。
YC:你们当时有多少人?
Jake Heller:大概有 120 人。
YC:你让 120 人全部转向,完全改变了他们的工作方向。
Jake Heller:是的,在 48 小时内。
YC:2023 年的时候你们是什么样子?能否谈谈那个疯狂的时期,从你们推出 CoCounsel 到以 6.5 亿美元被收购,仅仅两个月的时间。那两个月里发生了什么?
Jake Heller:澄清一下,收购交易实际上是在我们推出后六个月达成的,但收购对话确实是在推出两个月后开始的。我们在看到 GPT-4 后的 48 小时内,就想出了这个 AI 法律助手的概念。想象一下,它就像公司的新成员,你可以与它对话,而不是像现在那样简单地给 ChatGPT 下任务,比如让我阅读 100 万份文件,看看这家公司是否有欺诈行为的证据。它能在几个小时内完成这些任务。
从这个意义上说,它是律所劳动力的一个强大支援。这是我们最初的构想。早期我们制作了一个初始版本,由于与 OpenAI 的协议限制,我们不能公开这个产品,但他们允许我们将保密协议扩展到一些客户,让他们试用。
在 GPT-4 公开发布之前,我们就已经有几家律师事务所在使用,尽管他们不知道自己在使用 GPT-4,但他们已经看到了某种特别的东西。这甚至是在 ChatGPT 之前,我们与这种「神一样的 AI」的第一次对话,突然之间它能完成那些本来要我一整天才能完成的任务,而现在只需一分钟半。你可以想象,这种情况是多么疯狂。我们团队的 120 人,在 GPT-4 公开发布前的几个月几乎没有休息。我们觉得这是一个绝佳的机会,可以在市场上遥遥领先的机会。
YC:你必须转型,进入深度创始人(Fonder Mode)模式,因为很多员工可能会反对,像「之前这个东西运作得很好,为什么我们要全力投入 AI?」谈谈你的创始人模式时刻。
Jake Heller:如果你经营一家企业已经 10 年,这种情况尤其明显。员工们看到你在迷宫中徘徊、撞上死胡同。很多人一直在这里工作,作为创始人你需要说服他们,「我们要朝这个方向走,这一定会奏效。」
所以我和他们中的一些关键角色进行了对话。告诉他们:「这是一个疯狂的新技术,我们要投入。」当然,这需要一些工作来说服他们。想象一下,我们之前的年增长率达到 70-80%,ARR 在 1500 万到 2000 万美元之间,大家都觉得很好。这时候,有些董事会成员会问,「为什么我们要改变方向?」
关于创始人模式的关键是,我通过实例来说服团队。我亲自构建了第一个版本。
YC:即便在 120 人的公司里,身边有很多工程师和律师,你还是打开了你的 IDE,实际构建了那个东西的原始版本。
Jake Heller:部分原因是,最初的保密协议只扩展到我和我的联合创始人。在获得访问权限后的一周半时间内,我们就告诉了公司。在那段时间里,我们构建了第一个原型版本。我们在周五看到了 GPT-4,整个周末都在使用它。然后周一,我们召开了执行团队会议。所有的执行团队成员都来了,他们以为我们要讨论如何在下个季度达到销售目标,结果却是完全不同的主题。我在我的笔记本电脑上展示了新的东西。
我自己构建了第一个版本,这个过程对我和我的团队非常有帮助。我们还很早就引入了客户来使用,这帮助我们说服了团队中的怀疑者。想象一下,Zoom 会议的另一端,客户对产品做出反应并提供实时反馈,他们当时的表情变化都在告诉我们这件事情的潜力。
很多人对这个产品产生了深刻的兴趣,甚至有律师表示,「我得重新审视我的工作方式。」这正是我们想要的反应。
YC:能给我们讲讲 Casetext 创业前 10 年的故事吗,那段漫长的「前 LLM」时代?有什么经验和教训吗?
Jake Heller:我觉得从那段时期学到的教训是,当你开始一家公司时,可能并没有确切的方向,只有大致的方向。你知道,有一个问题你需要解决,但可能需要很长时间才能找到解决方案。对我们来说,我们看到在法律领域有技术问题,但也有很多律师在使用这些案例法条内容来做研究,他们需要在执业过程中了解案例对应的法条是什么。所以我们想,我们如何获得这些内容呢?我们花了几年时间试图让律师们去注释案例法并为我们提供信息。
YC:所以这就像一个 UGC 网站?
Jake Heller:是的,那是我们当时的重点。我们的目标是像 Stack Overflow、Wikipedia 和 GitHub 这样的网站,它们都是开源的或 UGC 网站。但当时这是个彻底的失败。我们无法让律师贡献他们的时间和信息。我认为这些只是不同的人群。典型的维基百科编辑者有更多的时间,所以他们会免费添加内容,很多是出于利他主义。
而律师是按小时计费的,他们的时间非常宝贵,几乎没有时间来贡献 UGC。所以我们不得不转型,开始深入研究。当时并不叫 AI,实际上是自然语言处理和机器学习。我们首先发现,我们不需要创建所有 UGC 来复制竞争对手在大型内容数据库中拥有的一些优势。其中一些其实可以通过自动化完成。然后我们也开始创建比竞争对手更好的用户体验。基于当时的 AI 技术,就像 Pandora 和 Spotify 的推荐算法一样,它们看歌曲之间的关系。人们听这首歌也听那首,对吧?类似地,我们查看案例引用其他案例的情况,构建了引文网络。我们找到了一种检查律师工作的方式。他们上传了他们的工作,就像「好吧,大家都在谈论这个案例,你却错过了。」这种体验真的很酷。
但事实是,直到 CoCounsel 的推出,我们所做的很多都是法律工作流程的渐进式改进。而其中一件奇怪的事情是,当只是渐进式改进时,实际上很容易被忽视。我们的很多客户,他们可能永远不会这么说,但你总能感觉到,你走进他们的办公室,试图向他们推销一个产品时,他们的反应是:「这将改变你工作的所有方式。」而他们却会说,「但我现在已经一年赚 500 万美元了。」他们根本不想引入任何有一丝可能让他们生活变得更糟或不那么高效的东西——因为他们是按小时计费的。
直到后来,当 ChatGPT 和 GPT-4 出来后。突然间,每个美国律师,甚至世界各地的律师,真的感到兴奋。他们有机会获取一种显著提高他们工作效率的工具。
我知道这将会改变一些事情。技术本身将在短时间内真正改变我们为律师构建的产品,而市场对哪些产品是必要的观点也发生了巨变。这是我们 10 年来第一次,即使在我们公开推出基于 GPT-4 的 CoCounsel 之前,客户就开始主动联系我们,询问我们能提供什么。
可以说,在那个时间节点,变化已经不是渐进式的,而是根本性的。突然间,他们必须关注技术的革新,客户无法再忽视它。
YC:我心里有一个「想法迷宫」的概念。创始人们像是在迷宫的起点,四处摸索,与客户交流,了解墙在哪里,应该左转还是右转。对于创业公司的创始人来说,常常会在迷宫中走入死胡同,然后不得不进行转型。
你的故事非常有趣。在迷宫的某个阶段,你们可能还没完全实现 PMF,但 LLMs 的出现让迷宫发生了剧变,使你们比任何人都更接近产品市场契合。这正是为何现在是个好时机。
Jake Heller:完全正确。每次我们走进迷宫,感觉似乎总能找到产品市场契合。推出 CoCounsel 之前,我们已经有了真正的收入和客户。
我总是想起 Marc Andreessen 在 2000 年代初写的一篇文章,《The only thing that matters》。他描述了获得 PMF 的感觉,提到服务器崩溃、无法快速招聘支持和销售人员的情景。我在职业生涯早期读到这篇文章时觉得有些夸张,但当我们推出 CoCounsel 时,这一切都变成了现实。我们的服务器崩溃了,我们无法快速招到支持和销售人员。
但当我们在 ABA 杂志或其他法律出版物、CNN 等媒体上亮相时,所有的一切都发生了改变。这就是产品市场契合的真实状态。
YC:很多人说,许多公司只是构建 GPT 的套壳,并没有太多的产品创新。但是,实际上,当你试图为客户解决问题并完成工作时,涉及到很多复杂的内容。你是怎么看待这个说法的?
Jake Heller:当然。当你试图为客户解决问题并实际完成工作时,有很多不同的东西需要添加进去才能做到。当你像我们一样将所有这些整合在一起时,你就不是一个 GPT 的套壳,而是一个完整的 App。在我们的案例中,这可能包括专有的数据集,比如法律文本和我们自动添加的法律注释。它可能包括连接到客户的数据库。在法律领域,他们有一些非常特定的文件管理系统,连接这些系统非常重要。还可能包括一些微妙的东西,比如你的 OCR(技术有多好,OCR 程序使用的是什么,以及在执行 OCR 任务时如何设置它们。
当 CoCounsel 执行任务,比如审查大量文件时,你会发现很多手写的内容,扫描时会倾斜。这些都是复杂的问题,他们可能会为了节省空间将四页打印在一页上,实际上,所有的 OCR 都能直接读取,但在实际操作中却很难做到。所以,当你处理所有这些边缘情况时,坦白说,在你接触大型语言模型之前,你必须要先处理这些所有的其他事情,以使其正常工作。然后你到达提示工程部分,编写具体的提示,以及将一个大问题分解为一步一步的思考,如何输入信息,如何正确格式化信息。所有这些都成为你的知识产权,非常难以复制,也很难构建。
YC:这就像所有成功的商业逻辑,甚至是所有成功的 SaaS 公司。非常具体的领域,你需要非常定制的小众经验集成。
Jake Heller:绝对是。实际上,所有的 SaaS,在一段时间内,就像是一个 SQL 套壳。像 Salesforce 这样非常成功的公司,他们构建了业务逻辑,基本上就是数据库和数据库表之间的连接,有时是弥补技术差距,一个技术背景的人能够自己做到,但大多数人却不能让这些内容变得可访问,或者弥补差距。
你可以在 ChatGPT 中做很多很酷的演示,而无需编写一行代码。但几乎可用和真正可用之间的差距是很大的。人们可能会为 70% 支付 20 美元一个月,但如果真的能够工作,他们可能会支付 500 或 1000 美元。这个可用性取决于实际用例。
YC:你们是怎么优化模型输出的准确率的?我经常听到的另一个批评是,这些大型语言模型产生的幻觉太多,准确性不足,无法满足现实世界的使用需求。但正如你前面所说,你处理的用例是关键任务用例。如果代理给律师提供错误的信息,他们正在处理重要的法庭案件,风险很大。
Jake Heller:这个测试驱动开发框架经历了很长的过程,因为你可以看到它犯错的原因。然后你会针对这个模式添加新的指令,但有时它仍然不能输出正确。这时你就需要问自己,我的指示是否够清晰?我是否包含了它不该看到的信息,或者是太多或太少,以至于它没有获取到全部的上下文。
通常这些模型都非常聪明。通过这些测试,找出为何某些测试失败,然后逐步改进,最终你能通过这些测试,而且得出正确的结果。
YC:让我印象深刻的一点是,很多创始人倾向于直接去做。没有评估、没有进行测试驱动开发。只是直接做提示工程。也许你也是很快就转向了这种方式,还是从一开始就是这么打算的?
Jake Heller:首先这要看用例。对于我们处理的许多事情来说,不管好坏,都有一个正确的答案。如果你得到了错误的答案,律师是不会高兴的。你知道,我自己是律师,而且已经和律师合作了十年。每次我们在做的任何事情中犯了最小的错误,我们都会立即被指出来。
还有一点我们考虑得很多的是,律师可能很快对这些东西失去信心,你有一次糟糕的经历,尤其是如果你的第一次体验不好,你就会想,也许我会在一年后再看看这个 AI 的东西,特别是如果你是个忙碌的律师,而不是技术专家。因此,我们知道必须让律师在第一次接触的第一周就能成功,否则他们不会深入使用。
YC:现在你们的模型是由 GPT-4 驱动的。但你接触过 GPT-3,甚至可能也接触过 GPT-2,对吗?
Jake Heller:是的,我们确实接触过。我们与很多实验室,包括 OpenAI,建立了密切的关系,他们早期就向我们展示了一些东西。他们问我们是否能为法律领域构建一些东西。每次我们都回答不。直到 GPT-3 和 3.5 的时候,我们才觉得,这东西终于开始输出人话了,终于听起来像律师的说法了。
但是它仍然会疯狂地编东西,这对于我们做的工作来说,很难与实际用例对接,特别是在法律领域,事实至关重要,你不能出现幻觉,甚至不能做出错误的假设。我们与早期模型合作了很多工作,试图让它们可用。实际上,它们当时并不是很好。比如说,当 GPT-3.5 出来时,研究显示它在律师资格考试中只能超过 10% 的人。它的表现确实比某些人好,但实际上那些人只是在蒙答案。
拿到早期的 GPT-4 时,我们再次进行了测试。我们和 OpenAI 合作,确保测试不在训练集上,而是全新的测试。测试显示它的表现比 90% 的考生好,这是一个巨大的差异。然后我们开始进行一些案例测试,比如给出四五个案例,让模型对此做出回应。我们进行了大量的提示工程,让它基本上能够准确地引用我们给它的上下文中的实际内容,而不是编造的东西。我们觉得这与我们以前看到的非常不同。
这对我们来说是一个重要的时刻。老实说,我不知道与我们合作的 AI 研究人员的心态如何,但感觉他们在会议上经常说,法律领域不起作用,需要继续尝试。但我们的客户确实不同。他们发现,这很不一样。
YC:现在我们有 o1,有了思维链。我认为很多人看这些模型时,不仅仅关注文本本身,还有改进工作流程的指令。但起初没有人知道这些,你为以前的模型版本写了一些测试,它们的表现超过预期。你们是怎么做的?
Jake Heller:实际上和我们今天做的没有太大不同。从一个问题开始,比如,我们试图为用户解决什么问题?用户想进行法律研究。所以,他们想要一份备忘录,回答他们的问题,并引用法条的原始来源。这是最终结果。
然后我们想,如何从那个最终结果出发?逆推需要什么才能达到这个目标。我们为 CoCounsel 构建的很多东西,我们称之为「技能」。当你构建这些技能时,通常需要很多工作才能将客户输入的内容(例如一组文件或一个问题)转化为他们想要的最终结果。
我们考虑的方式是,世界上最好的律师会如何处理这个问题?
在研究的情况下,最好的律师会从合伙人那里得到请求,然后将请求分解成实际的搜索查询。有时他们会使用特殊的搜索语法,实际上看起来像 SQL。你必须将英语查询分解为多个不同的搜索查询,可能有十几个。非常勤奋的律师会坐下来,阅读每一个结果中,包括案例法和法规,逐行逐段。然后,他们会开始做一些笔记和总结,然后开始从所读的东西中提取洞察。最终,基于所有的工作和收集的引用,整理出研究备忘录。我们觉得,这些步骤中的大部分,以前的技术无法完成,但现在可以用提示工程实现。
确切地说。我们将其分解到每个步骤。为了达到最终的结果,可能需要十几个或二十几个不同的单独提示,而每个提示可能恰好是一个步骤。但对于这些提示中的每一个,我们非常清楚什么样的提示是有效的。我们有一系列的测试,但测试会变得更加严苛,我们首先写了一些,可能是几百个,然后是几千个。
在这个研究过程中,最初的任务是将查询分解。我们非常清楚好的搜索查询是什么,并为给定的输入,写出了标准答案那样的结果。而我们的提示工程师——起初我也是其中之一,我们聚在一起,写这些提示词,进行测试,找出它们在什么情况下能给出正确答案。
YC:有点像测试驱动开发?
Jake Heller:是的,这确实是从软件工程转向提示工程的过程。而且有趣的是,我以前从未真正相信过测试驱动开发,但在提示词的世界里,我觉得这种方法变得更加重要。因为这些大语言模型的特性,它们可能会出乎意料地走向疯狂的方向。你可能很容易添加一组指令来解决一个问题,但会因此打破其他东西。
YC:谈谈 OpenAI o1,因为它是一个非常不同的模型。我认为 o1 是令人兴奋的。虽然我们还没有看到有任何新东西围绕 o1 被构建出来,但这主要是因为它前段时间才刚刚宣布。我认为它正在朝着系统二思考的方向发展。我认为这一直是一个大的研究领域,我在近一年前的研究中看到很多,许多研究人员对解锁这一点感到兴奋,因为这是通向 AGI 之路的缺失部分。谈谈你对 o1 的看法,以及这将会改变什么?
Jake Heller:首先,我认为 o1 是一个非常出色的模型。我们给了它一些我们知道会失败的测试,不仅仅是数学的应用。例如,在我们运行的一个测试中,我们给了它真实的法律简报。但我们轻微编辑了一些律师对案例的引用,使其成为错误的引用或错误的总结。一个 40 页的法律简报。你添加一个词,比如「不」,就可以完全反转某件事的含义,对吧?然后我们还给了 AI 整个案例的全文。我们问它,律师对这起案件有什么误解吗?实际上,以前的每一个 LLM 都会像什么都没有发生一样。
但 o1 是完全正确的,o1 在思考我们改变的简报中的一些微妙之处,是哪里导致它稍微错误。它会思考一会儿,然后开始回答,你改变了一个词。这些测试,你可能会期望即使是早期的 AI 像 LLMs 能够完成,但实际上并不能。而突然之间,o1 在这些事情上表现得很好,甚至需要像精确细节这样的思考。
YC:显然,o1 真正是如何工作的我们没有内部的信息。但我们有这个广义的概念:思维链。这就有点像,如果 OpenAI 有一个巨大的内部独白语料库,人们逐步思考做事情。哦,这种模型会做得更好。这有点像你登上月球的第一步,对吧?是的,你把它拆分成小块,你可以达到 100% 的准确率,而不是把所有东西都扔进上下文窗口,也许它会神奇地工作。
Jake Heller:我认为是的。他们可能改变了他们正在做的事情。不只是做输入输出,而是他们在思考输入,我该如何解决这个问题,然后输出。但有趣的是,它实际上受到编写那些指令的人的智力的限制。
我们正在与 o1 一起做一件事,是在思考过程中告诉它思考什么,并注入一些最好的律师一样的思维方式,像我们国家最好的律师将如何思考解决这个问题?也许会有一些不同,o1 可能改变了一切,现在看结果还为时过早,因为发布之后还没有很长的时间。
新的提示技术之一是教它不仅仅是如何回答问题、什么样的例子是好的答案,而是教他如何思考。我认为这里有一个非常有趣的机会,就是注入领域专业知识或你自己的智能。
YC:非常感谢,因为我认为你正在分享一些线索,告诉我们这项技术在哪些领域才刚刚开始。很多人对刚刚发生的事情没有概念,他们仍在重复过去那些陈词滥调,你最好微调之类的。我很高兴你分享了这些想法和知识。因为我们谈论的事情,都可能会创造出十亿美元的公司,甚至百亿。
Jake Heller:实际上。我们希望如此。我的意思是,我们开始看到许多其他领域像法律一样升级,当你不必花费数百万美元和六个月的时间在地下室逐份阅读文件时,当你实际上可以跳过那些得到结果时,而这些公司,他们目前支付的薪水,每一个都是数百万美元,对吧?所以任何公司只要有一个 AI 能够做 80% 的工作,AI 的价值就真的存在。
我只是想鼓励人们不要因为那些陈词滥调而放弃,像幻觉太多,太不准确等等。对于任何例子来说,总有一条路径,你可以做到的。
文章来自于微信公众号 “Founder Park”,作者“Founder Park”
【开源免费】ai-renamer是一个用AI帮你做文件夹或者图片命名的项目。该项目会根据文件夹或者图片内容来为文件进行重新命名,让你的文件管理更加便利。
项目地址:https://github.com/ozgrozer/ai-renamer
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0