AI医疗独角兽OpenEvidence:1/4的美国医生都在用,像互联网产品一样做AI医疗

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI医疗独角兽OpenEvidence:1/4的美国医生都在用,像互联网产品一样做AI医疗
2385点击    2025-04-01 14:57

AI医疗独角兽OpenEvidence:1/4的美国医生都在用,像互联网产品一样做AI医疗


AI 医疗公司 OpenEvidence 在 2 月份获得红杉资本新一轮的 7500 万美元融资,估值超过 10 亿美元,成为了新的 AI 独角兽。


更为耀眼的是它的用户数据,官方声称,1/4 的美国用户医生已经在使用 OpenEvidence 的工具。


「如果算上所有活跃用户,每月有 30-40 万人接触我们的系统,其中 20 多万医生会登录并提问。换句话说,美国大约 10%-25% 的医生,已经在某种程度上使用 OpenEvidence 了。」


成立于 2021 年,OpenEvidence 专注于提供专业的 AI 医学知识助手,向所有医生免费开放,通过广告产生收入,产品迅速实现了自发传播,并与《新英格兰医学杂志》等出版机构达成战略合作。


这种增长方式也是红杉投资决策的关键因素。红杉合伙人 Pat Grady 领导了这一轮投资,他认为 OpenEvidence 的采用与消费者互联网产品的传播方式相似。「没有多少医疗工具能像消费者应用程序那样传播,但这是其中之一。」


创始人 Daniel Nadler 最近参与红杉资本的播客节目,对于 AI 医疗产品的落地、增长,以及如何做没有幻觉的 AI 模型,输出了很多干货信息。Founder Park 基于播客节目整理了文章。


Key Message:


  • 传统上,医疗 AI 产品往往需要通过医院或其他机构的审批,而 OpenEvidence 直接面向医生,让他们能快速获取最新医学知识。这种方式让产品更快得到广泛应用。
  • 医生也是普通人,医生也是消费者。如果你做出一个足够好的产品,能够真正改变他们的工作方式,甚至改变整个行业,然后直接放在 AppStore 上,但真的有效。
  • 除了工作时间长、医学院的高强度学习,还有医生人数本来就不够,他们还要面对一个极大的挑战——医学知识的更新速度太快,大约每五年翻一倍,根本跟不上。
  • 但对医生来说,几乎所有情况都是特殊案例,都属于「边缘情况」。医生的日常工作,就是不停地查找这些特殊案例对应的解决方案。
  • 我们的目标是「对医学做 JPEG 压缩」。所以,我们的训练数据主要是同行评审的医学文献,以及 FDA(美国食品药品监督管理局)和 CDC(美国疾病控制与预防中心)发布的权威信息。
  • 我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网,所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法,而是用了多个模型组成的「集成架构」,每个模型负责不同的任务
  • 虽然已经被说了无数遍,但我也找不到更好的表达方式:顶尖人才只想和顶尖人才共事。


01

把医生当作普通消费者,

不去攻略医院高层


Pat Grady: 目前有多少医生会使用 OpenEvidence?


Daniel Nadler: 现在大概有 10 万名美国医生在用,还有一些来自全球其他地方的用户。


Pat Grady: 那一年前呢?


Daniel Nadler: 可能才一千人,甚至更少。其实很多人可能不知道,美国大约有 100 万名医生,要为 3.4 亿人口提供医疗服务。这本身就是个值得讨论的问题。而在这 100 万名医生中,如今大概有 10 万人每个月会使用 OpenEvidence。


如果算上所有活跃用户,每月有 30-40 万人接触我们的系统,其中 20 多万医生会登录并提问。换句话说,美国大约 10%-25% 的医生,已经在某种程度上使用 OpenEvidence 了。


Pat Grady: Sequoia 主要投资科技行业,而不是医疗行业。但据我了解,在医疗领域,10 万名医生短时间内开始使用一个新产品,是非常不寻常的。一般来说,医疗行业的增长速度没这么快。你们到底做对了什么?


Daniel Nadler: 这也是我们合作愉快的原因——因为你们不是传统的医疗投资人,而我们的做法也不是典型的医疗行业做法。我们的关键点在于,我们认识到——医生也是普通人,医生也是消费者。


事实上,每个人都是消费者。而你们的投资策略也抓住了这一点,你们不会把「消费者互联网」单独当成一类,然后把医疗行业归为一个独立、封闭、难以渗透的领域。你们把所有行业都用互联网的增长曲线来看待,我们的思路也是一样的。


如果你从「自上而下」的方式入手,比如很多人说医疗行业很难进入,做医疗创业太难了,别去碰这个行业……


Pat Grady: 其实,从过往的案例来看,这种说法也不是没有道理。


Daniel Nadler: 没错。因为大家的思路都一样——他们都在用同样的方式「撞墙」。他们想办法去找某个大型医疗集团的高层,比如首席医疗信息官(CMIO)或者首席技术官(CTO),然后想方设法约个会,争取见上一面。


哪怕他们人脉再广,光是把这场会议安排上,就得等三四个月。等终于开上第一场会,他们会兴奋地击掌:「太棒了!反馈很好!」


然后呢?然后他们要安排第二场会,可能是跟医院的「AI 委员会」开会。这又得等三个月。等到真的去开会了,这期间医院的 AI 策略可能已经变了,政策环境可能也变了,甚至美国总统换了,新政府突然有了新的 AI 监管要求。于是会议又被推迟,一年过去了,他们可能还在第三、第四场会议的路上。而真正需要这个工具的医生呢?在这个过程中,他们根本没机会用上。


我在这方面有很多经验——这已经不是我第一次创业了。在创办 OpenEvidence 之前,我已经成功卖掉了一家 AI 公司。


Daniel Nadler: 我对美国大公司的运作方式再熟悉不过了。这不只是医疗行业的问题,所有大机构运作起来都差不多。我很清楚这个套路,知道它行不通。尤其是对我来说,这是我的第二家公司,我想做的不是一场漫长的审批马拉松,而是真正让医生用得上的产品。如果我花几年时间做了一家「有使命感、有影响力」的医疗 AI 公司,结果医生根本没法用,那还有什么意义?


所以我们选择了完全不同的方式。医生也是普通人,医生也是消费者。如果你做出一个足够好的产品,能够真正改变他们的工作方式,甚至改变整个行业,然后直接放在 AppStore 上——这听起来像是创业入门课 101 的内容,但真的有效。


我们就是这么做的。我们没有烧钱做市场推广,也没有铺天盖地的广告,一切都是医生之间的「口口相传」。当医生觉得这个工具真的好用,他们就会告诉身边的同行。然后越来越多人开始用,形成了自然的增长。


这种增长模式和特斯拉早期的策略很像。特斯拉一开始几乎不做广告,而当时汽车广告是整个广告行业的重头戏。大家都觉得,要想卖车,必须砸大钱做广告。但特斯拉说:「我们就做一款超级棒的车,让用户自己去传播。开过的人会觉得『天呐,这比其他车好太多了!』然后主动推荐给别人。」


同样的事情发生在 OpenEvidence 身上。医生从 App Store 下载试用,觉得好用就推荐给同行。一年前,可能只有几百上千人用它;今天,已经有几十万医生在用了。大概占美国所有执业医生的 10% -25%。

具体比例取决于计算方式,因为拿到行医执照的医生比真正活跃执业的医生多,但即使按最低标准计算,OpenEvidence 也已经覆盖了 10% 以上的美国医生。而这一切,完全是靠产品口碑驱动的。


Pat Grady: 大家可能很容易理解「什么是好车」,但「什么是医生需要的好应用」可能就没那么直观了。


Daniel Nadler: 没错。


02

医学知识增长速度太快,

医生根本跟不上


Pat Grady:医生们到底在这个应用里干嘛?他们为什么这么喜欢它?


Daniel Nadler:我觉得一款产品好不好,最核心的一点就是它能不能真正解决问题。很多科技产品其实是「先有解决方案,再找问题」,但真正好的产品必须从实际痛点出发,提供真正有效的解决方案。那么,做医生最难的是什么?


除了工作时间长、医学院的高强度学习,还有医生人数本来就不够,他们还要面对一个极大的挑战——医学知识的更新速度太快,像消防水管喷涌而出的信息流,根本跟不上。


很多人没意识到这个问题,但实际上,每分钟就有两篇新的医学论文发表,一天 24 小时不间断,一周七天都如此。Nature 曾经有篇研究表明,医学知识每 73 天就翻一倍。当然,这个算法可能有点激进,我们在 OpenEvidence 内部做了一次更保守的测算,结果是大约每五年翻一倍。这里的统计方式很关键,比如如果把所有的引用都算进去,可能就会得出 73 天这个结果。但医学研究并不是所有论文的质量都一样,真正对医生有用的,往往是顶尖的期刊,比如影响因子最高的前三分之一的期刊。即便只看这些,医学知识每五年就翻一倍。


如果你稍微算一下,就会发现这意味着什么:1950 年,医学知识大约 50 年翻一倍,而现在是 5 年。换句话说,在 1950 年,一个医生从医学院毕业,他学到的知识在整个职业生涯中还能管用。到他退休时,可能有一半的知识过时了,但影响不大,因为他的职业生涯也差不多结束了。而且那时候的医学进展也没那么快,所以医生还能靠日常学习慢慢跟上。


但今天情况完全不同了。医生还没等到完成住院医师或进修医师培训,他们在医学院学到的内容就已经有一半过时了。医学教育曾经是医生获取知识的主要方式,但现在,它能支撑医生知识面的时间可能只有几年。


举个例子,假设一个银屑病患者去看皮肤科医生。理论上,医生可以查阅最新的生物制剂研究,挑选最安全、最有效的治疗方案。但问题是,皮肤科医生可能会关注皮肤病相关的医学期刊,但如果这个患者同时患有多发性硬化症(MS),那情况就复杂了。MS 主要属于神经科的研究范畴,指望皮肤科医生把所有的神经科期刊也都看完,显然不现实。更别说不同疾病之间的交叉领域,信息量更是庞大。


在这种情况下,医生就很难办。一方面,他们不能随便给患者开药,万一药物影响了 MS 的病情怎么办?另一方面,他们也不能什么都不做,因为风险不明确就不治疗银屑病,这对患者的生活质量影响很大。

他们需要找到最靠谱的最新研究,比如 IL-17 和 IL-23 抑制剂的疗效和安全性,尤其是针对同时患有 MS 的患者。


在 OpenEvidence 之前,医生要查这些信息特别费劲。去 Google 搜?搜不到有用的信息。去 PubMed 查?最多就是给你一堆论文标题,但你要的并不是一篇通用的综述论文,而是一个非常具体的问题:对既有银屑病又有 MS 的患者,IL-17 抑制剂和 IL-23 抑制剂哪个更安全?哪个更有效?


这就是 OpenEvidence 存在的意义——让医生可以快速找到最新、最准确的医学证据。像这样的问题,并不是个例,而是每天都会发生的情况。医学涉及的领域太广了,每一个病例几乎都是一个「边缘案例」,需要医生在大量信息中寻找最相关的答案。


Pat Grady:是的。


Daniel Nadler: 从工程的角度来看,医学的复杂度可以说是无限大的。虽然不是真正的「无限」,但对医生来说,几乎所有情况都是特殊案例,都属于「边缘情况」。医生的日常工作,就是不停地查找这些特殊案例对应的解决方案。换句话说,如果你能帮助医生更高效地找到这些罕见病例的参考资料,比如在顶级医学期刊里找到关于银屑病合并多发性硬化症患者,IL-17 和 IL-23 抑制剂安全性比较的研究,那么你就大大改善了医生的工作体验。更重要的是,这样还能提高患者的治疗效果,避免因为医生不知道「IL-17 对银屑病效果很好,但对有多发性硬化症的患者来说,IL-23 其实更安全」这样的关键信息,而导致病情恶化。


医生之所以可能不知道这些信息,并不是他们的问题,而是因为在他们上医学院的时候,这些研究根本还不存在。像 IL-23 抑制剂,2017 到 2019 年才出现,就算是现在还很年轻的医生,读书时也没学过这些新知识。他们只能在毕业后自己去追踪最新的研究。但问题是,这种「边缘情况」太多了,每一个这样的案例背后,可能还有成千上万个类似的情况需要关注。在有 OpenEvidence 之前,医生要想随时跟上这些更新,几乎是不可能的,而这就可能影响到患者的治疗效果。


很多医生用 OpenEvidence 后告诉我们,他们会用它来查找那些自己一辈子可能只遇到一两次的病例。而当越来越多医生都这样说,涉及的病例各不相同时,我们就意识到,医学知识的「长尾」有多么惊人——虽然没有真正无限长,但对人脑来说,已经复杂到几乎无法完全掌握。而 OpenEvidence 的作用,就是帮助医生在这条漫长的「长尾」里,精准找到他们需要的知识。


Pat Grady: 医学知识增长的速度非常快,这本来是件好事,但问题在于,医生的学习能力是有限的,无法完全消化这些海量的新信息。就像一个不断被装满的桶,里面的「潜在能量」很大,但没法顺利转化成「动能」,因为医生无法高效地吸收和应用这些信息。AI 擅长处理海量文本、进行推理,所以 AI 的出现正好可以解决这个问题,把这些医学知识转化成医生真正可用的工具。


03

把不抓取互联网信息,

只从专业渠道获取内容


Pat Grady: 那么,OpenEvidence 这个名字里的「Evidence」到底指的是什么?


Daniel Nadler: 简单来说,OpenEvidence 的「evidence」就是经过同行评审的医学文献。更重要的是,我们要明确它不是什么。过去很多大公司尝试用 AI 做医学应用,但最后「翻车」了,其中一个重要原因就是它们的数据来源有问题——它们直接从网上抓取信息,比如各种健康博客,甚至是社交媒体上的帖子。而这些内容的作者,大多数既不是医生,也没有医学背景,很多人同时还写旅游攻略、做美食博客,真正的专业知识有限。


问题是,AI 学习的内容就是这些博客里的信息,所以当大模型在早期阶段输出一些荒谬的医学建议时,问题不在于 AI「疯了」,而是它学到的东西本来就不够专业。而 OpenEvidence 完全走了另一条路,我们的模型不联网,不会去抓取互联网上的内容。我们的数据来源是像《新英格兰医学杂志》这样的顶级医学期刊,我们还和他们建立了战略合作关系。


Pat Grady:《新英格兰医学杂志》一般不会随便授权AI公司使用他们的研究数据吧?


Daniel Nadler: 确实不会。据我所知,我们是唯一一家获得授权的 AI 公司。很多 AI 公司都去找他们谈合作,但基本都被拒绝了。


Pat Grady:为什么他们似乎信任 OpenEvidence,而不信任其他公司?你们到底有什么特别的地方,让他们愿意合作?


Daniel Nadler:具体的细节就不展开了,简单来说,很多知名 AI 公司去找《新英格兰医学杂志》,问他们:「我们能用你们的数据来训练模型吗?」结果被直接拒绝了。我不去揣测他们拒绝的具体原因,也不能替他们发言,但总之他们说了「不」。


而我们的情况完全不同,我们压根没去主动找他们,而是他们主动找到我们。怎么回事呢?《新英格兰医学杂志》编辑委员会里的几位重量级人物本身就是 OpenEvidence 的深度用户,他们希望自己常用的工具里能包含他们的内容。


Pat Grady:(笑)


Daniel Nadler:这就是最理想的情况,对吧?所以他们主动找上门来,我们也花了很多时间去打磨合作框架,确保合作方式符合他们的品牌定位,保护他们的学术权威性。毕竟,他们是医学界的「天花板」,是行业顶尖的医学期刊,而且他们是非盈利机构,不是靠商业化赚钱的。就算有人砸再多钱,他们也不会因为钱而轻易妥协。事实上,一些资金雄厚的 AI 公司确实尝试用巨额资金打动他们,但他们依然拒绝了。如果他们是私营企业,可能会接受,但他们是由马萨诸塞州医学会运营的非营利机构,他们更看重自己的学术使命,而不是短期的商业利益。


对 OpenEvidence 来说,这个合作就像是「水到渠成」。杂志社的核心人员本身就是我们的用户,他们用了觉得好,就主动找我们谈合作。如果我们采取传统的企业 SaaS 推广模式,比如先花很长时间去谈医院的大规模合作,等着参加第 17 次会议,还没用户使用,那《新英格兰医学杂志》的人也不会接触到这个产品,更谈不上喜欢上它。最终,我们也不会有这个机会达成合作。


所以,这就形成了一个良性循环:我们把产品免费推出去,让人们自发使用,然后核心用户群里刚好有《新英格兰医学杂志》的重要人物,他们用着觉得不错,就主动找到我们,最终促成了合作。现在,我们的模型可以基于他们完整的数据进行训练,而市场上其他 AI 产品都做不到这一点,我可以很肯定地说,目前 OpenEvidence 是唯一一个完整训练了《新英格兰医学杂志》全文的 AI 产品。


04

Open 意味着直接触达

和信息公平


Pat Grady:刚才聊了「Evidence」这个词的含义,现在来说说「Open」。为什么「Open」这么重要?它意味着什么?


Daniel Nadler:「Open」对我来说,一开始就意味着很多东西,其中最核心的一点是我们的市场策略。它时刻提醒我,OpenEvidence 不是一家传统的企业 SaaS 公司。我的第一家公司就是做企业 SaaS 的,那种模式可以很赚钱,你也很清楚,企业 SaaS 赛道能跑出很多成功的公司。


但在做第二家公司的时候,我不想重复自己,我希望它不仅仅是个有影响力、有使命驱动的公司,还要和我的第一家公司完全不同。所以,我决定不走企业 SaaS 模式,而是直接面向个人用户,或者更准确地说,面向「专业用户」。「Open」这个词,就代表了这种理念:我们直接触达医生,而不是让医院管理层或其他人来做中间商。医生是直接的使用者,他们的痛点很明显——工作负担过重、时间不够、患者太多,还要处理海量的医学信息。我们的目标就是帮他们解决这个问题,让他们更轻松地获取关键信息。


此外,「Open」还代表着医疗信息的公平性。在美国的医疗体系里,资源分配非常不均衡,就像社会其他领域一样,有钱的医院可以买到所有最先进的工具,甚至有预算去试用各种软件,但最终可能真正使用的寥寥无几。如果你让马斯克去审计这些顶级医院的 SaaS 支出,他估计会大跌眼镜——他们买了一堆工具,但真正用的却少之又少。


Pat Grady:是的。


Daniel Nadler:你看,一方面大型医院、研究机构在用高端科技,但另一方面,在美国农村地区,或者一些经济条件较差的城市里,很多医生其实是私人执业,或者是在小型诊所里工作,比如不到 10 人的团队。很多人可能不知道,其实医生也是小企业主,他们不是都在那些资金雄厚的大型医院系统里上班。很多医生是自己开诊所的,就像上世纪 50 年代那样,他们有自己的诊所,可能只有一两个行政助理或者秘书帮忙,剩下的所有事都得自己操心——看病、管理、处理各种行政事务,全都压在他们身上。而且他们没有庞大的科技预算,更别提像大学那种基金会支持了。他们根本负担不起每年 1 万、2 万美元的软件订阅费。


所以,这就是「开放」的意义。我们收到一封来自乔治亚州奥尔巴尼的一位医生的信,他是当地一家癌症中心的主任,同时也是一名社区肿瘤医生。他说 OpenEvidence 已经成为他日常行医的生命线,让他的癌症治疗方式发生了巨大变化。而我对奥尔巴尼并不了解,就上网查了一下,发现这里位于乔治亚州西南部,75% 的人口是非裔美籍,家庭收入中位数是 4.3 万美元/年。


然后我开始拼凑这个医生的处境——他可能是方圆 50 英里内唯一的肿瘤科医生,或者就算有第二个医生,也要服务大范围、经济条件一般的患者。他根本不可能拿出 1 万、2 万美元去订购 SaaS 软件。而这就是「开放」的意义。我们还收到来自阿拉斯加费尔班克斯的一封信,一位医生说她在当地的社区诊所工作,几乎没有机会接触到专科医生。OpenEvidence 让她能够获取专科级别的医学知识,即便她所在的地方根本没有相关的专家资源。


想想这个场景,她在一个小型社区诊所,不是在有充足资金的大医院上班,她根本不可能花大价钱买这些软件。所以,这就是「开放」的意义——它适用于全国的每一位医生。我们很自豪,OpenEvidence 不仅仅被梅奥诊所(美国著名的医疗机构)使用,我们当然很喜欢梅奥诊所,甚至曾在那孵化过一部分产品,很多顶级医院的医生也在用它,但它的价值不仅限于这些精英医疗机构。我们的用户遍布全美,从乡村诊所到城市医院,从梅奥诊所到克利夫兰诊所,甚至在沃尔特·里德国家军事医疗中心,帮助政府为士兵和退伍军人提供治疗,而政府不需要花三年时间走采购流程。


再举个例子,美国退伍军人事务部(VA)是全国最大的医疗系统之一,也是最重要的医疗体系之一,因为它为军人和退伍军人提供治疗。而 VA 采购新技术通常需要三年时间,如果 OpenEvidence 不是开放的,我们可能还在政府的审批流程里徘徊,等着决定 VA 里的医生能不能用它来帮助退伍军人。而现在,我们已经收到来自 VA 医生的信,他们说 OpenEvidence 在关键时刻帮助他们做出治疗决定,改善了退伍军人的护理质量。这让我每天醒来都充满动力。这就是「开放」的意义。


05

专注小模型,

只对医学数据做「JPEG 压缩」


Pat Grady:你们算是为医疗行业打造了一款「杀手级应用」,而且效果很好。我们的很多听众也在做类似的事情,试图用 AI 打造自己的「杀手级应用」。所以,我很好奇,你们是怎么做出来的?它是基于 GPT-3 或 GPT-4 的某种封装吗?背后的技术是什么?能不能讲讲?


Daniel Nadler:我分两部分来讲,一部分是我们是怎么做的,另一部分是对听众来说有哪些可借鉴的地方。我猜很多听众的应用可能不像医疗领域这么特殊,所以也想谈谈更通用的方法。


在医疗领域,我们的解决方式是组建了一支博士级别的科学家团队。我的联合创始人 Zachary Ziegler 是哈佛的计算机科学家,师从 NLP 领域的顶级学者 Alexander Rush。Evan Hernandez 来自 MIT 的 Jacob Andreas 实验室,还有 Eric Lehman 也是 MIT 的。我们招募了一群站在语言模型最前沿的科学家,他们来自当时全球最强的两三所研究机构。


为什么要这么做?因为我们要解决的是医学领域的问题,而这个问题门槛极高、难度极大,当时还没有人真正解决。那些大互联网公司做的医学 AI 产品,早期基本都翻车了,出过不少尴尬的事故,大家应该都记得。所以,我们的策略是结合学术和工程实力来攻克这个问题。我们不仅仅是在做工程实现,还在做原创的研究和知识探索。


当时整个行业的趋势是拼模型规模,所有人都在追求更大的语言模型,比如 DeepMind 出的 Chinchilla 论文*,大家都在讨论「更大、更大、更大」。但我们反其道而行之,我们的思路是——与其追求庞大的通用模型,不如训练更小、更专业化的模型,在特定领域里做到极致。今天这已经成了共识,比如 DeepSeek 也在走类似的路,但在 2022 年那个时候,这并不是显而易见的选择。


*论文地址:https://arxiv.org/abs/2203.15556


我们的模型在通用对话上可能很差,写诗、闲聊这些完全不行,一旦离开医学领域就会崩溃。但在医学领域,它的表现极其精准,效果远超那些大而全的模型。我们以学术的方式去做这件事,发表了论文《我们还需要临床语言模型吗?*》(Do We Still Need Clinical Language Models?)。这篇论文在 2023 年被评为医疗 AI 领域最佳论文,吸引了很多关注。这是行业里第一篇明确提出「在医学领域,小而精的模型比大模型更好」的研究。


*论文地址:https://arxiv.org/abs/2302.08091


现在回头看,大家可能会觉得这个思路很合理,但在当时,行业的主流方向还是规模化扩展。我们的做法类似于 JPEG 压缩,语言模型就像是对世界的「压缩」。关键问题是:你在压缩什么样的「世界」?这又回到了我们之前讨论的公共互联网。


Pat Grady:是的。


Daniel Nadler:如果说大模型是在对整个互联网做「JPEG 压缩」,那它们的训练方式其实就是尽可能多地获取数据,越多越好。那么,所有这些数据从哪来?当然是公共互联网。但就像 Ilya 说的,你到底在压缩什么呢?你压缩的就是整个公共互联网。这也就是为什么 2022 年底、2023 年初的时候,很多大模型的输出会显得有点尴尬,是因为它们的「压缩」方式导致的。


而我们的方法不太一样,我们的目标是「对医学做 JPEG 压缩」。所以,我们的训练数据主要是同行评审的医学文献,以及 FDA(美国食品药品监督管理局)和 CDC(美国疾病控制与预防中心)发布的权威信息。幸运的是,在我们正式和《新英格兰医学杂志》(NEJM)合作之前,我们已经发现了一个关键优势:根据美国版权法,美国政府创作的内容默认属于公共领域。这也是维基百科能够使用大量公共数据的原因之一。


所以,在早期,我们主要利用 Creative Commons(知识共享许可协议)下的公开数据。这个方法不是所有领域都能用,比如法律、会计、税务等很多信息都受保护。但医学领域的很多高质量内容,尤其是 FDA 和 CDC 发布的信息,都是免费的。所以,我们用这些数据做训练,同时规避了版权问题,建立了一个足够好用的系统,让医生可以下载使用。这样,我们就吸引了像《新英格兰医学杂志》这样的机构主动联系合作,最终拿到了更多原本受版权保护的内容。这种「飞轮效应」逐步推动了整个系统的成长。


我们的方式非常技术导向,也非常学术化,主要是因为医学领域的准确性太重要了,不能出错。


06

专业数据、多模型组合,

解决幻觉问题


Pat Grady:对,我正想问你这个问题。现在很多医生在用 OpenEvidence 来做临床决策,那它的「幻觉」(hallucination)问题怎么解决?


Daniel Nadler:是的。而且,顺便说一句,这也是给创业者或者工程师的一点思考,有些应用场景里,幻觉不只是「没那么烦人」,甚至是个「特色功能」。比如 Midjourney,就是个很好的例子。


Pat Grady:对。


Daniel Nadler:Midjourney 其实就是靠「幻觉」做出独特的艺术效果的。所以,有时候,聪明的做法不是把幻觉当成缺陷,而是想办法把它变成优势。说到这,我想到一个可以创业的点子——如果要在金融领域用大模型,那其实可以反过来利用幻觉,把它当成风险管理的工具。


金融行业有一个核心问题就是「黑天鹅事件」(极端低概率但高影响的风险)。传统的计算机系统很难想象这些极端情况,但大模型的「幻觉」能力可能刚好能弥补这个短板。我自己就做过一些实验,把我的投资组合信息喂给模型,然后让它「幻想」可能的风险。它给出的结果有时候让我挺惊讶的,比如我很喜欢英伟达,但模型居然能想到一些我自己完全没考虑过的潜在风险。


所以,大模型的应用才刚刚开始,我们现在也许只开发了 1% 的潜力,还有 99% 的可能性等着被发掘。对于创业者来说,这其实是个巨大的机会。


但回到医学领域,这种做法就完全行不通。我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网,所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法,而是用了多个模型组成的「集成架构」,每个模型负责不同的任务,比如检索、排序等。这样才能达到 OpenEvidence 目前的准确度。


这些模型的「JPEG 压缩」对象,只包含同行评审的医学文献,所以它不会生成超出这些文献的信息。这就解决了一半的问题,而另一半的问题,是让医生能直接查看答案的来源。我们很早就做了这点,甚至比 ChatGPT 还早。我们的系统会提供可追溯的参考文献,医生可以点进去,直接查阅相关研究。这样不仅提升了可信度,还让医生真正能依赖它做决策。


这个方法还意外带来了和医学期刊的双赢合作。我们并不是简单地「压缩」期刊的内容然后输出,而是直接把流量送回期刊网站。结果我们帮助医学期刊获得了数千万次访问量,很多医生因为 OpenEvidence 的推荐,发现了他们本来不会注意到的研究。这就形成了一个良性循环,医学期刊也愿意让我们收录他们的内容,最终受益的是医生和患者。


更有意思的是,很多医学协会也主动找上门来,希望我们能收录他们的指南。这样一来,不仅医生能获得更准确的信息,期刊和协会也能得到更多关注,整个生态都受益。这才是 OpenEvidence 真正的价值所在——它不仅提供了准确的医学信息,还搭建了一个对所有人都有利的知识共享平台。


07

技术在迭代,

但底层逻辑不会变


Pat Grady:Kensho *已经创立十多年了,这些年 AI 和机器学习的发展突飞猛进。如果我们对比 Kensho 和 OpenEvidence 的底层架构,有多少是一样的?又有哪些不同?其实我想问背后的问题是,一个真正能跑起来的 AI 应用,究竟有多少是靠最近的技术突破?又有多少是建立在传统的工程和机器学习方法之上的?


*Kensho,Daniel Nadler 早年创立的 AI 金融量化分析系统,2008 年被标准普尔以 7 亿美元的价格收购。


Daniel Nadler:Kensho 诞生的时候,根本还没有大语言模型,甚至连小一点的语言模型都没有,还没有 BERT,基本上什么都没有。甚至可以说,那时候连「火」都快没了。


Pat Grady:(笑)


Daniel Nadler:所以很难比较,对吧?当时 Kensho 其实是 NLP 领域的早期尝试。当然,到我把公司卖掉的时候,它已经成熟很多了。但如果你回到 2013 年我刚创立 Kensho 的时候,那和今天完全是两个时代。不过,有一点是相同的:无论做什么 AI,底层的基础架构都非常重要


比如,我们自己训练模型,刚才也聊过这个。即使你不训练自己的模型,只是接一个现成的大模型 API,一旦你的产品做得足够好,流量上来了,它迟早会崩掉。而你肯定希望自己能做到这一步,做到 API 顶不住的程度。而当它真的崩掉的时候,你就需要传统软件工程里那一整套基础设施,必须有非常扎实的工程能力才能支撑起来。


这点 Kensho 和 OpenEvidence 是一样的,因为它们都是高要求的系统。拿金融领域来说,海量资金都是基于这些数据流动的,你不可能让系统在交易过程中突然崩掉。所以这其实是件好事。我觉得,ChatGPT 爆火之后,很多人担心「游戏规则是不是变了?」


Pat Grady:是啊。


Daniel Nadler:但我要说,规则并没有变。技术确实更先进了,这是一个持续发展的过程。技术一直都在进步,比如 1982 到 1987,或者 1993 到 1997,每个时代技术都会比之前更强。这次的进步确实是个飞跃,有非线性的增长,甚至可以说是指数级的提升。是的,Ray Kurzweil 说的都对,他早就预测到了。


但从更宏观的角度看,这仍然是一个循序渐进的过程,就像物理学的定律不会突然改变,哪怕我们在研究光速旅行,从十分之一光速提升到二分之一光速,技术复杂度可能呈指数级增长,但物理定律始终没变。AI 也是一样,它的发展是非线性的,但本质上还是一个连续的过程。所以从工程和创业的角度来看,过去重要的东西今天依然重要。在 Kensho 时代重要的事情,今天在 OpenEvidence 依然重要。


还有一点,团队的水平也很关键。Kensho 和 OpenEvidence 之所以能成功,很大程度上是因为我们找到了非常聪明的人来做这件事。


08

招聘,只招顶尖人才


Pat Grady:说到团队,你刚才提到了 Zach、Evan、Eric 和 Micah。你是怎么吸引到这些人的?面对那么多选择,他们为什么愿意加入 OpenEvidence?


Daniel Nadler:这个问题 Steve Jobs 早就说过了,虽然已经被说了无数遍,但我也找不到更好的表达方式:顶尖人才只想和顶尖人才共事。


精英人才想要和精英人才待在一起。这就像海豹突击队的 BUD/S(海军海豹突击队的筛选过程)选拔,很多人报名参加,不是因为他们觉得自己一定能成功,而是他们想看看自己能不能跟上队伍。他们想挑战自己,想知道自己的极限在哪。这种心态,从古希腊时代就有了,无论是在战争、工程、体育,还是金融领域,最优秀的人都想知道自己到底有多强,而唯一的方法就是和最优秀的人竞争,看看自己能不能匹配上他们的水平。


所以,这就是我在 Kensho 的做法,而现在在 OpenEvidence 也是一样的,事实证明,这种方式非常有效。虽然现在这个观点可能有点「政治不正确」,但说实话,我就是想找高智商的人,除此之外,我不在乎别的。我不在乎你的背景、长相、身份,我只在乎你是不是一个聪明到极致的人。这就是事实,我也没法掩饰。


回到团队,比如 OpenEvidence 最初的核心成员:Zachary Ziegler、Jonas Wolf、Evan Hernandez、Eric Lehman、Micah Smith,他们几乎都是哈佛或 MIT 的博士。但我要澄清,这不是因为我刻意去这些学校找人,而是因为在 Kensho 的经验让我意识到,如果你让高智商、学习速度极快的人去攻克一个难题,他们的进展会远超一支普通规模大 100 倍的团队。


对所有在听的人来说,最让人安心的一点就是,游戏规则没变。物理定律没变,重要的事情依然重要:顶级团队、高智商人才、高学习能力的人、极度渴望成功的人、强烈的求知欲,这些都还是关键因素。


而当我说「高智商」时,我指的是 高神经可塑性(neuroplasticity)。我指的是大脑学习新知识、适应新环境的能力,而不是能多快解开魔方(因为解魔方和 IQ 其实没什么强相关性)。


Pat Grady:你说的是 François Chollet 对智力的定义:能高效习得新技能的能力。


Daniel Nadler:没错。所谓的高智商,就是指能快速吸收、理解、应用全新的知识。而这在任何时代都重要——1000 年前重要,3000 年前也重要,只不过应用的领域不同了。以前是在战争、军事战术、孙子兵法里,现在是在 AI、工程、金融等领域。


我平时喜欢研究军事历史,像克劳塞维茨、马基雅维利、孙子这些经典的战争理论,也研究拿破仑、亚历山大大帝这些历史人物。他们并不是军队里体格最强壮的人,但他们有一个共同点,就是能在瞬息万变的战场上,完全调整自己的思维方式,迅速适应新的战局。


这就是我们现在所说的「神经可塑性」——他们能够在最短的时间内调整自己的认知框架,找到最优解。


过去 3000 年里,人类的活动方式确实变化很大。战争仍然存在,但大多数人已经不再像古希腊城邦时代那样为了生存而战斗。但不变的是,想要取得突破性成功,核心仍然是大脑的学习能力和适应能力。


09

从商业角度来说,

最伟大的公司会出现在应用层


Pat Grady:第一个问题。这个数字肯定没法准确衡量,因为它需要一个「假如没有」的对比场景。但我们猜测,OpenEvidence 的使用方式可能真的在挽救生命,比如帮助医生做出更好的临床决策。那么,我们什么时候可以说 OpenEvidence 已经拯救了一百万条生命?


Daniel Nadler:一百万条生命?这感觉像在做麦肯锡的面试题,需要推理一下,比如说,如果有 15 万或 50 万名医生在用,每个医生每天要看多少病人?其中有多少是危及生命的情况?我是这样想的……


Pat Grady:要不要听听我的算法?


Daniel Nadler:好啊,说说看。


Pat Grady:我的算法是,这取决于数据来源,但每年大约有 30 万到 80 万人死于医疗失误。当然,并不是所有这些死亡都跟医生当场的决策有关,可能还有其他因素。但我们先取 30 万这个低值,再砍一半,得到 15 万。这样算下来,大概 6 年半就能达到一百万的数字。当然,这是在 OpenEvidence 完全普及的情况下,所以再给它几年发展时间,可能 8 到 9 年后,也就是 2034 年 11 月 4 日,我们能达到这个目标。


Daniel Nadler:我打算拿这个当面试题了。


Pat Grady:(笑)行啊,行啊。


Daniel Nadler:我唯一想补充的是,2030 年代,OpenEvidence 可能真的已经拯救了一百万条生命,但这不包括那些因为医生避免了用错药而没有恶化的病人,比如今天有个医生没有给 MS(多发性硬化症)患者开错生物制剂。这样的情况每天都在发生。还有一个医生在罗德岛给我们写信,说他用 OpenEvidence 判断病人症状是否符合肺栓塞,最后发现确实符合,于是立刻送进急诊,救了病人的命。


所以,OpenEvidence 其实已经在救人了,我们知道这点,因为医生告诉了我们。但类似这样的例子很多,有的病人可能只是病情没变严重,或者一些并发症被及时控制。这种影响的规模,早就达到百万级了。


Pat Grady:好的,下一个问题。你觉得大模型会不会变成一个通用的、标准化的商品?


Daniel Nadler:我觉得它们确实在变得越来越强,成本也在下降。而且 Ray Kurzweil 说的基本上都对。所以最前沿的东西不会被「商品化」,因为前沿永远是前沿。但如果说 ChatGPT 刚推出时那种「哇塞」的感觉,它的成本最终会趋近于零。


Pat Grady:对。


Daniel Nadler:这就是为什么我觉得,真正有趣的商业机会不在底层大模型,而是在应用层面。当然,在大模型层面依然有很多学术上、科学上的突破,但从商业角度来说,最伟大的公司会出现在应用层


Pat Grady:总结得很好。那 AGI(通用人工智能)呢?你觉得它已经实现了吗?或者什么时候会实现?


Daniel Nadler:我觉得我们已经实现了,只是大家一直在改定义。图灵测试?我们早就通过了。然后大家又说,AGI 需要在多个领域达到高中生水平?好了,现在也达到了。再后来变成「AGI 需要大学生水平」?这个也实现了。现在有人说,要在所有学科都达到博士水平,这才是 AGI。等到真的实现了,人们可能又会说:「不行,AGI 其实是要有『意识』。」


其实大家真正想问的是:AI 什么时候会有自我意识?什么时候能像电影里那样变得「觉醒」?但问题是,我不确定这种「意识」到底是不是神经网络到一定复杂度后自然涌现的东西。这其实是一个哲学问题。


Pat Grady:明白,那如果让你推荐AI 相关的内容,不包括这个播客,你会推荐什么?


Daniel Nadler:《Understand》(中文名《领悟),Ted Chiang(特德·姜)的小说。


Pat Grady:为什么?


Daniel Nadler:我不想剧透,你自己去体验吧。Ted Chiang 是最伟大的科幻作家之一,他写过《降临》(电影原作)。《Understand》是他 90 年代初写的,完美展现了「智能指数级增长」是什么感觉。


大多数人可能会期待我推荐一本非虚构书籍,比如去读 Chinchilla 论文之类的。但如果你想真正理解,我们这个时代正在发生的事情,这本小说能从叙事角度捕捉到那种加速感。


Pat Grady:最后一个问题。你觉得 AI 在未来 20 年里最积极、最正面的影响会是什么?它会如何让我们的生活变得更好?


Daniel Nadler:我必须说,是「个性化医疗」。


个性化医疗一直是「明天的事」,就像量子计算、核聚变,感觉总是快实现了但又差点意思。不过实际上,我们刚才聊的 OpenEvidence,本质上已经是个性化医疗的起点了,比如针对某个病人特定的并发症来推荐合适的生物制剂。但这只是冰山一角。


我认为,再过 10 年,不管是 OpenEvidence 还是其他 AI,都会把病人的所有具体情况与全球所有相关医学知识进行匹配,形成一个超个性化的治疗方案。到那时候,可能 120 岁、130 岁都不再是人类寿命的上限了。


然后我们就会进入像忒修斯之船的哲学悖论:如果你不断替换自己身体的「木板」,到最后你身体里没有一块是原来的了,但你的记忆、情感、身份都还在——那么,你还是你吗?


我是个乐观主义者,我相信人类生物学是可以被「拆解重建」的。我觉得,这种「忒修斯之船式的医学」就在不远的未来。而 AI,正是推动它实现的关键。


文章来自于“Founder Park”,作者“Founder Park”。


AI医疗独角兽OpenEvidence:1/4的美国医生都在用,像互联网产品一样做AI医疗

AITNT-国内领先的一站式人工智能新闻资讯网站