让每个人都能获得均等的医疗服务水平。
最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资;Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元;Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元。
这些公司共同展示出一个趋势:AI 正在全球范围内迅速重塑医疗行业。在国内,AI+医疗同样在如火如荼地发生。硅谷知名风险投资机构 a16z 预言:医疗保健将成为从 AI 中受益最多的行业。
因此本周,我们邀请到京东健康探索研究院首席科学家王国鑫 Nico,请他分享「京医千询2.0」大模型与「AI 医院」的研发与应用。他不仅谈到在企业战略层面,AI 产品如何通过京东健康的医检诊药生态,来满足用户健康需求,也解析了以 OpenEvidence 为代表的美国初创公司目前在 AI+医疗方向的主要探索与不同侧重。
医疗是监管最严、数据最敏感、决策最攸关生死的垂直领域。因此,Nico 今天分享的经验和方法——如何找到真实痛点、如何积累专业数据、如何在产品和战略层面争夺用户心智——**对所有垂直大模型行业都具有启发意义,**相信也能给正在思考 AI 落地的你带来一些参考与帮助。
最后,Nico 还带来了他作为科学家的个人健康管理小技巧,简单实用,谁都能用得上。
👩🏻 Ronghui
大家好,欢迎来到这期的「十字路口」。我们邀请京东健康首席科学家王国鑫,来聊一聊医疗大模型。医疗大模型是一个典型且特别的案例,我们想通过它探讨,是否所有垂直场景的 AI 创业都会遇到类似的问题:数据从哪里来?如何验证商业落地?如何实现?这也是我们第一次在节目里邀请到一个公司 C-level 的首席科学家,我就直接叫 Nico,请 Nico 跟大家打个招呼。
👦🏻 王国鑫
大家好,很高兴参加「十字路口」这个节目,谢谢。
👩🏻 Ronghui
那我们进入快问快答。年龄?
👦🏻 王国鑫
40 岁。
👩🏻 Ronghui
你现在是在京东健康探索研究院的第几年?
👦🏻 王国鑫
第三年。
👩🏻 Ronghui
在这之前是做什么?
👦🏻 王国鑫
主要做搜索和多模态技术。
👩🏻 Ronghui
你的 MBTI 和星座?
👦🏻 王国鑫
ENFJ,双子座。
👩🏻 Ronghui
用一句话介绍你们现在在做的这个产品。
👦🏻 王国鑫
我们在做的产品是京医千询的医疗大模型,以及基于它的 Agent 医疗服务。
👩🏻 Ronghui
方便介绍现在的收入和利润吗?
👦🏻 王国鑫
这是送命题。其实现在 AI 整体还没有完全跑通商业模式,但京东健康上半年营收超过 350 亿人民币,净利润超过 35 亿人民币。这块业务对我们来说主要是回答医疗服务的未来,以及公司未来的方向。
👩🏻 Ronghui
其实你也说了,它现在扮演的是一个向未来沟通的角色,在公司的战略规划里,它是什么作用?
👦🏻 王国鑫
基本是核心战略。医疗本质上是供给受限、服务成本极高的行业。每个人对健康的需求是无限的,我相信每个人都想长寿。所以 AI 在这里最大的作用就是能否提升供给水平。它虽然很难,但不仅京东健康,所有立志在健康领域发展的公司,甚至国家层面,都对这项技术极其重视。
👩🏻 Ronghui
我们先来说说你们正在做的产品。大概 10 年前就开始做这个方向,2018 年开始做互联网医院,现在的工作可以说是那个时候的延伸?
👦🏻 王国鑫
可以这么讲。
👩🏻 Ronghui
你们在准备做医疗方向大模型的时候,主要考虑什么?
👦🏻 王国鑫
作为一家公司,从逻辑上要回答技术能带来什么。最早京东健康之所以具备部分 AI 能力,是因为我们每天有 超过50万路医疗服务进线,也就是 超过50万人次寻医问药。如果没有 AI 分诊和质控技术,一方面无法满足精准的医患匹配,另一方面也无法保证线上医疗服务合规合法。
所以京东最初做 AI 的逻辑是,把业务装在合规的框架里,同时降低成本。这是第一阶段的目标。
第二阶段,我们团队做过数字疗法、甚至部分脑机接口的探索。因为医疗不仅是线上视频或电话咨询,还需要了解日常生活状态、检验检查结果。所以我们要把数据向两端延长——治病前的健康状况、治病后的恢复状态都要覆盖。在这种情况下,数字疗法技术变得重要。再往后就是大模型时代。
大模型最大的吸引力在于它表现出类人的水平,尤其是指令依存能力。它在医疗服务中不仅承担精准匹配和合规属性,还可能具备类医生的服务水平,从而极度降低成本。如果能力进一步提升,它甚至可能成为生命伴随的一部分,就像亲人一样长期陪伴。
这就是新一代大模型与前几代 AI 的根本不同,它尝试解决医疗最根本的痛点——供给能力,以低成本方式实现。而现实中,部分人因社会地位或财富可以享受专家级服务,但大多数人无法享受。欧美社会分层更严重。反过来,AI 对行业的价值就是能否低成本扩大供给。如果做到这一点,每个人都能获得均等的服务水平,每个人都可能延长 3~5 年寿命。这是医疗 AI 能为社会和国家创造的价值。
👦🏻 Koji
我一直很喜欢一个说法:大模型可能让很多人工作效率拉开差距,但它一定能提供一个价值,就是让所有人的情绪得到平权。过去很多人有心理疾病,却得不到照料,因为心理医生严重稀缺。而大模型可以「看见」所有人,接住所有人的情绪,甚至提供抚慰。刚才 Nico 讲到京东做健康大模型,可能就是从精神健康领域泛化到整个健康领域,给所有人带来医疗上的建议和指导。
👦🏻 王国鑫
这至少是我们的愿景,我们也会努力。
👩🏻 Ronghui
医疗是垂直领域的模型,需要大量专业数据。它的优势是数据理论上应该高度标准化,但难点在于采集和使用结果的影响很大。
👦🏻 王国鑫
医疗有几个特点,可以说「痛并快乐着」。
一方面,过去多年国家推进信息化和医院考核,使医院数字化水平相对更高,这是事实。比如病例有严格规范,影像有云数据和质控,国内医疗体系花了巨大力气跨过了信息化阶段。这是做医疗模型的幸运。如果还停留在纸质报告和手工挂号,谁也做不成。
另一方面,仍有难度。第一,医学数据往往不可能记录完整,受限于工作需求、流程需求,或者确实没必要记录大规模完整数据,医院的首要责任还是救死扶伤。
👦🏻 Koji
现在记录的数据也多是提炼后的。
👦🏻 王国鑫
很多是提炼数据,质量也不一定满足需求。
第二,模型学习和人类学习有差异。人类医生通过病例归纳提升认知水平,而模型仍主要依赖原始数据训练,需要大规模推理或原始数据。但在医疗中,这些数据并不存在。很多时候,医生在病历中写下的只是结果,思考过程没有记录。而人类通过大量归纳和口口相传,能习得经验。这也是为什么近几年有个概念叫「self-learning」,模型何时能学会「学习」,可能是 AGI 的重要组成部分。
第三,医疗数据有敏感性和复杂性。病例数据往往分散在不同医院,确权也有问题:数据属于医院、医生还是患者?此外,还有专业壁垒。比如检验检查结果互认,直到最近才推广。其原因是即便是 CT,也可能因设备或仪器不同导致结果差异,并不完全共识。这不一定是医院逐利,而是为了降低风险。
因此,医疗模型复杂性高、敏感性强、专业壁垒大。也正因如此,它是垂直领域里最难,也是最有价值的模型方向。困难是所有做医疗 AI 的人都面临的,大家都在同一赛道上,单点技术优势很难改变现状。
👦🏻 Koji
说到垂直模型,正好想追问一下。在您看来,除了医疗的垂类模型,还有哪些行业需要这样的垂类模型?因为今天有一个论调叫做基模会变得越来越厉害,很可能之后能满足泛化的很多需求。但医疗这个领域似乎确实需要大模型。在您看来还有哪些领域需要这样的垂直大模型?这背后是否可以抽象出一些特征?
👦🏻 王国鑫
我先回答最后一个问题,就是抽象逻辑。因为我自己在内部也要申请预算,必须得说明做这件事的必要性。我觉得逻辑有几个点:
第一,这个行业的数据是不是相对低成本可获取,或者低成本可模拟。如果满足这一点,它就有必要性。
第二,它的商业模式是否足够显见。如果太显见,反而可能没有垂直的机会。
我们可以用数据和商业化两个维度来划分。举个例子,如果数据显见、低成本可模拟,那说明行业知识门槛不高,容易被新技术替代,这就比较困难。比如教育模型,有人说 AI 可以做更好的数学老师或英语老师。今天普遍认为学习语言时,AI 的教育能力可能比人更强,因为知识显见、可模拟,同时还能克服大家的心理障碍,比如和陌生人讲外语的紧张感。
还有一种情况是知识不外显,需要花很大力气治理,但它的商业模式足够清晰。这时摆在我们面前的就是代码。现在的代码模型往往是独立模型,甚至可以说 Claude 就是为代码优化的模型。某种意义上,所谓的 coder model 就是垂模。它之所以也被通用模型公司重视,是因为商业模式太清晰,通用公司无法拒绝。哪有一家通用公司不写代码?换句话说,我们这类人力成本太高了,所有公司都有个愿望:怎么能用机器人替代整个团队。当然这是玩笑,但说明商业模式极其外显。
所以总结来说,垂直模型的两个条件:
👦🏻 Koji
对,我想到我们上一期播客的嘉宾,是 3D 大模型 VAST 的创始人。他提到他们训练数据是非常核心的竞争力。当问到数据来源时,他说如果说了,最底层的商业机密就暴露了。
再回到医疗大模型。您怎么看在大家熟悉的「看病难、看病贵」这些问题上,到目前为止,AI 已经带来了哪些改变?未来三到五年还会带来哪些新的改变?
👦🏻 王国鑫
我觉得 AI 首先改变了信息获取的平权。这件事其实非常了不起。以前大家有病时,第一反应是用搜索引擎获取信息。但搜索引擎的商业模式是竞价排名,本身就促进了信息错配,而不是合理适配。我们也和监管部门讨论过这个问题。
大模型解决了一个关键问题:能否更真实地遵守物理结果。今天大模型在商业模式上,大家都在思考,但很少有人把信息匹配当成商业模式。大家追求的是如何提供高质量、可信的知识与信息服务。没有人去挑战信息匹配的问题,它已经从「信息匹配」转变为「信息绝对正确的生成」。最优秀的团队追求的就是这个目标。
所以不要低估我们从搜索引擎模式转向问答、chatbot 模式的意义。它背后是普通人获取信息的准确性快速提高。从医疗角度看,「看病难、看病贵」的前提是有一个健康认知。大家要尽可能减少疾病发生。比如 40 岁以上人群的胃肠镜渗透率、体检渗透率、检验检查质量,这些都可以通过 AI 辅助进一步普及,相当于教育患者、教育整个社会。
👦🏻 Koji
所以你的意思是,大家在和 AI 对话过程中会听到更多健康建议,比如去做体检、胃肠镜等?
👦🏻 王国鑫
对,我觉得这是第一步。
第二步是今天正在解决的问题:能不能通过模型解决分诊问题,区分用户的状态。我能否识别你是轻症、重症还是急症?轻症可以给出标准解决方案,重症和急症则快速链接到医疗资源。原有 AI 系统做不到这一点。以前要么挂号,要么去互联网医院找医生。而现在,如果 AI 平时就采集你的数据,在关键时刻还能针对病情变化直接导向资源,就解决了匹配成本的问题,降低了复杂性和心理门槛。
第三,就是根本问题: AI 辅助诊疗能达到什么水平?这是大模型的核心战场。如果辅助诊疗足够可信,人工只需 review,那至少在普通疾病上,服务能力就能延伸到 7×24 小时,对人的要求逐步降低,这其实就部分解决了「看病难」的问题。
最后讲「看病贵」。这里主要是急症和重症。AI 的最大帮助不在服务层面,而在疗法研发。今天每天都有大量医学论文发表,我自己都看不完,我只能去看最高水平的论文。医生是终身学习的职业,他们更不可能全部跟上。所以我们呼吁有面向医生的 AI,持续提升他们的能力。医生的水平提升,才是提升整体医疗水平的根本。
另外,AI 已经成为制药和新疗法研发中的核心组件。它不像 ChatGPT 那样是 toC 产品,但影响很深。今年创新药行情火热,背后逻辑是中国企业 BD 出海的能力增强,license 出售增多,研发速度提升。这从根本上推动了解决「看病贵」。
所以总结来看:
从长周期看,这三点是 AI 改变「看病难、看病贵」的最重要方向。
👩🏻 Ronghui
你刚才提到的愿景很美好。但除了医生资源不足这个问题,其实还有一个门槛:对很多人来说,使用 AI 本身也需要学习,他们也需要被教育,这同样是个挑战。
👦🏻 王国鑫
我对此有一点不同的看法。举个小案例:有一次我坐航班,航班延误了,旁边一位大爷掏出手机拍机舱。我好奇地瞄了一眼,发现他在问一个 chatbot:「这是什么飞机?机型是什么?哪个位置最舒服?」
这让我意识到,AI 的渗透率其实比很多人想象的要高。在中国尤其如此。虽然今天的 AI 产品不像移动互联网时代那样在 C 端显眼,但在信息服务上已经展现出强大能力。从行业数据也能看到,无论是十几岁的年轻人,还是四五十岁以上的人群,AI 的使用率都很高,呈现「双高」的趋势。
某种程度上,AI 的 chatbot 正在取代搜索引擎,直接提供答案而不是信息。这也是为什么一段时间内 Google 股价承压,因为 AI 在用户眼中已经能够直接给出 knowledge 和 answer。
所以我对 AI 产品的渗透力非常乐观。我常常设想:如果回到三年前没有 AI 的时代,我们的生活还能维持今天的状态吗?我认为答案是否定的。
👦🏻 Koji
我昨天还看到一个类似的问题:如果别人都有 AI,而你没有,你愿意拿多少钱来过没有 AI 的生活?我认真想过,哪怕给我一个亿,我都要认真思考一下。
👦🏻 王国鑫
没错,这就是生产力差距带来的认知鸿沟。它不是用金钱可以轻易衡量的。我经历过从互联网到移动互联网的转变,那种「不可阻挡」的趋势,现在同样发生在 AI 上。虽然今天 AI 在 C 端的表现还没有完全迭代,但从 B 端到 C 端的渗透率已经足够优秀。否则我们不会看到几乎所有的产品都在默认放大搜索框,背后正是这种转变的体现。
👩🏻 Ronghui
说回垂直模型。你们的「京医千询」模型从 2023 年的 1.0 到最新的 2.0,能否给听众介绍一下主要的升级点?
👦🏻 王国鑫
我觉得主要体现在三个方面。
第一是研究模式的变化。在 1.0 时,我们主要使用真实的知识数据,比如论文、学科文章、教科书以及大量真实病例,这些构成了数据底层。而在 2.0 时,我们投入大量精力生成合成数据。
所以这次京医千询 2 不仅是一个模型,我们还把医患对话的合成 agent 免费向行业开放。它不是开源的,但大家可以通过接口使用。这对行业的贡献是,大家可以通过接口尽可能模拟真实医患对话。
👦🏻 Koji
它是直接取你们的模拟数据,还是自己进来也可以开启模拟?
👦🏻 王国鑫
它可以开启模拟,就像一个医生,你可以问它任何问题,帮它模拟问诊,它能还原诊间患者和医生的真实对话,背后由我们训练的模型支撑。这是一个新的认知。医疗模型很多时候不能完全基于现有数据,因为现有数据获取太困难,所以合成数据或 agent 模拟是必然路径。2.0 的第一个变化就是采用大量高水平的合成数据,这也得益于京东健康每天 49 万次问诊。我们有基础做这件事。
第二是在模态层面的变化。2.0 支持影像数据,包括 CT、MRI、X 光。医疗领域如果只局限在文本模态,就离真实世界很远。今天即便是咳嗽超过一周,医生也会建议做筛查,更复杂的疾病影像更是诊断核心工具。所以 2.0 在模态层面有巨大提升,不仅能理解医学语言,还能精准理解影像资料。
第三是推理的变化。以前我就说过,我不太喜欢「推理」这个词,因为在中文里有二义性。哲学层面的推理是人类的联想与思考,而模型的「推理」更像是格式学习,通过算力提升答案准确度,它不是人的推理。
在医疗行业,推理过程必须被验证。所以我们和寻证库对接。例如我的推理结论是 A、B、C,我要标明每个结论的证据来源,并将证据分级,比如顶级期刊论文或国家指南为最高等级。我基于此做出诊断和判断。所以我们称这套为「循证推理」,而不仅是单纯消耗更多 Token 的思考方式。
因此,合成数据、多模态、循证推理是 2.0 的三大演进,也是它值得一个新版本号的原因。
此外它有个很酷的 demo,展示推理过程是多模态的。我们不仅能在文本中说明「因为 A、B、C」,还可以拿一张影像片,直接锚定到病灶,说「基于肺部这个病灶状态,我做出这样的推理」。所以它的推理过程是多模态交互的。
👦🏻 Koji
您提到第一个大升级是用了大量合成数据,这些数据是医患问诊对话。您说用很多办法验证真实性,才能用于训练。我好奇如何验证?
👦🏻 王国鑫
这个问题可以统一回答:医疗领域所有模型都要面对数据准确性、模型准确性以及「怎么验证」的挑战。我们的流程是这样的:在研发过程中,我们会构建很多评测数据集做对比。但任何一个模型上线前,都会经过三步人工验证,这个成本很高。
第一步是 in-house 验证。京东健康有一个大的全科医生团队,他们会从不同科室维度评价,衡量忠实性、专业准确性、流畅度、一致性等五六个核心指标。
第二步是 third-party 验证。我们和几所大型医学院合作,他们会在合作框架下拿到模型,进行二次评估。
第三步是质控委员会验证。这个委员会由 100 多位来自各地的专家医生组成,独立进行评估。
通过这个工作让我想起 OpenAI 发布的文章《HealthBench》。当时 CEO 问我这篇文章的意义,我说它说明 OpenAI 也需要用医生来验证医疗模型。《HealthBench》大概由 60 多名医生参与,其中包括中国医生,人工手写了 benchmark,再结合技术手段进行验证。我们内部也是类似的三层模式。
👦🏻 Koji
合成数据量非常大,在只有 100 多位专家的情况下,怎么核验这么多数据呢?
👦🏻 王国鑫
流程可以理解为一个漏斗。
第一,漏斗不是一天灌满的。在持续迭代中,我们能发现模型问题和合成数据 bug,更容易分级。第二,漏斗上层主要依靠技术手段,尽量让机器的评估接近人的评估。研发同学的目标是尽量减少流到下层的数据,同时确保严重问题能流到下层。
所以可以认为这是一个持续迭代的漏斗。我们不会逐条验证所有数据。但从概率角度看,大模型本质是个贝叶斯模型,我们要做的是提升整体概率,把严重、易错的留到下层,把简单直接的留在上层,通过技术手段实现。
👦🏻 Koji
其实我自己有个很大的好奇。比如说我今天身体不舒服,第一反应还是会去问 ChatGPT。很多时候它给我的答复我觉得也还蛮准确的。那我就想知道,咱们作为一个 80 多人的团队,花了那么多时间和精力去训练医疗大模型,在哪些地方能比基础大模型做得更好?能不能举个具体的例子?如果我去问咱们的模型,而不是 ChatGPT,会得到更准确、更全面的回应吗?
👦🏻 王国鑫
这个例子其实挺多的,可以从两个角度来说:一个是单模态,一个是多模态。
先说单模态。真正的医疗大模型需要具备「拟专家能力」,更贴近医生的思维方式,而不是面面俱到的百科模式。患者可能愿意问很多问题,但从医生的角度,更重要的是通过几个关键问题迅速做出判断。通用模型通常会基于教科书知识,把所有可能性都列出来,然后事无巨细地追问。但医疗模型要像医生一样,基于病种的核心问答快速判断,而不是给出一长串可能性。这并不是通用模型做不到,而是它不符合医学实践和伦理。
再说多模态。比如影像。很多人平时会用大模型翻译文章、读论文,觉得挺好用。但如果让通用模型去解读医学影像,效率就会大打折扣。我们的模型在这方面专门优化过,比如定位(positioning)、脏器对称性、小病灶识别的敏感度。通用模型不会针对这种数据做专门优化,因为这不是它的主要商业模式,而且存在数据壁垒。所以在多模态的效果上,我们和通用模型差异明显。
👦🏻 Koji
多模态我非常能理解。但在单模态里,如果只是一些常见的小病,比如感冒,可能基模和垂直模型的答复差不多吧?那需要到什么复杂度或专业度的问题,差异才会更明显?
👦🏻 王国鑫
其实发烧就是个很好的例子。你可以去分别问通用模型和我们的 agent,再让真实医生 review 一下答案,就能看出区别。通用模型会事无巨细地列出很多可能,因为它学习到发烧是极其普遍的症状。但在医学实践里并不会这么做。专业模型会更符合医生的习惯和医学规范。
👦🏻 Koji
我们回头就可以在基模和咱们的模型里分别问这个问题,然后把对比结果放到播客的 shownotes 里,让感兴趣的朋友自己看看。
(编辑注:关于播客中提到的“京东大健康模型”vs“ChatGPT等基础大模型”在同一医疗健康问题下的对比,嘉宾认为 1-2 轮的问答体现不了特性,大家感兴趣的话,建议在京东搜索“AI医生”自行体验。欢迎交流体验后的感受。)
👩🏻 Ronghui
我比较好奇,像 OpenAI 也会针对医疗做一些评测,比如跑分。我看到你们也公布了 Medbench 的成绩。对普通用户来说,最直观的可能就是看谁分数高。那怎么让用户更直观地感受到准确性呢?
👦🏻 王国鑫
这是个体验的问题,而不仅仅是跑分。坦白说,跑分更多是技术指标,帮助我们知道达到某个水位需要做什么。但跑分和实际体验并不是 100% 对应的,这也是大模型评测的难点:看起来大家都不差,但真实使用中还是有差异。这里涉及模型本身、产品设计,甚至交互设计的问题。
在我们看来,好的体验就是尽可能模拟专家的服务能力。但医学最重要的还是诊断准确和处置有效,这一点甚至比体验更重要。当然我们也训练了共情能力,比如让模型学会嘘寒问暖,说些体贴的话。但这部分能力是通用的,可以和医疗模型剥离开。医疗模型的核心永远是诊断和处置的准确性。
至于跑分,我们内部的态度是:可以跑,也可以不跑。很多时候跑分结果和我们内部资深专家评估对不上。我个人还是更相信真正专家的评价。
👦🏻 Koji
毕竟跑分的评判维度也是另一群专家定义的,只是他们的标准和医生的标准不完全一样。
👦🏻 王国鑫
对,而且那些标准是固定的。
👦🏻 Koji
说回用户体验的话题。昨天在 JDD 大会(京东全球科技探索者大会)上,我看到咱们「京医千询」的展区,就去和产品经理交流。我问了和刚才类似的问题:在医疗问答里,基模和你们的区别是什么?
他给了一个很有意思的回答:在京东健康 APP 里会为用户建立患者档案,记录既往病史和慢病情况。这样同样的问题,不同的人会得到不一样的答复,因为会结合个人的健康信息。同时,APP 还能建家庭档案,比如帮孩子、父母提问。这看似是个小功能,但我觉得基模很难做,除非做到极细分。而在垂直健康产品里,这反而是很有价值的。
👦🏻 王国鑫
是的,我认同您的观点。
👦🏻 Koji
刚才您提到情商不是医疗大模型的「圣杯」之一。但比如王小川在谈「百川要造医生」时就强调过沟通的重要性:医生不仅要懂医学,还要会和患者及家属沟通。那从你们的角度,是否也在尝试让 AI 更像专家一样安慰患者,帮助他们理性接受诊疗方案?
👦🏻 王国鑫
在内部,我们的评测体系分为两条线:体验线和专业线。治疗准确、问诊准确、方案准确都归在专业线;沟通技巧、安慰、沟通能力则归在体验线。沟通技巧和专业本身并不冲突,很多时候模型能力是可以正交的。
从研发角度看,我们可以用一部分数据和算法提升专业力,用另一部分数据和算法提升共情能力,把它们训练在一个模型里,再通过提示词激发。大模型参数量达到一定规模后,就具备泛化能力,不像以前必须背完整数据。
所以我同意「沟通极其重要」。但医学是高信任领域,专业性绝不能妥协。沟通更像车机系统,而专业性更像自动驾驶,两者逻辑和稳定性要求不同。模型回答知识已经像模像样,但要成为高水平的倾诉对象很难。换句话说,内科医生的难度低于心理医生,而心理医生的难度远高于内科医生。
提升共情能力很必要,但难点在于如何评估和衡量模型的共情力。我们行业有一句话是:「当一个指标能被测量,就能被优化。」今天有很多模型能模仿声音,我相信模仿声音很容易,但如果做一个 Ronghui 的数字人,Koji 前几分钟可能觉得像,再过一会儿就觉得不像。所谓真正的拟人感、高水平的沟通,可能需要更大投入和新的技术突破。
所以对我来说,这是资源分配问题。专业性不能妥协,同时尽量提升服务水平,但我承认服务水平在技术上仍有难点。
👦🏻 Koji
咱们有在做心理健康类的大模型吗?
👦🏻 王国鑫
我们考虑过心理健康大模型,也与国内头部心理健康医院合作过。这是北京科委支持的项目,核心是一个心理健康的数字人,前端的数字人和背后的模型都由我们研发,主要用于缓解患者的焦虑和抑郁。临床实验还没完成,但目前结果积极。
不过,从模型角度看,我们没有过分强调它是心理健康模型。现在还是主要聚焦常见病和重病,心理方面的投入相对少一些。
👩🏻 Ronghui
前面几次也提到过数据获取的问题。昨天活动上你们也说和很多医院合作,那训练数据是通过什么方式获得的?
👦🏻 王国鑫
我们的数据主要有几个来源:
第一,与数据中心合作。医疗数据涉及确权和合规,必须强脱敏、强匿名化。我们通过数据中心合作,获取的都是高度匿名、合规的数据。最近还与一个国家级数据中心签约,合作围绕大规模多模态模型展开。
第二,研发思路是:互联网数据、京东健康自有数据和合成数据构成基线,再通过数据中心合作形成一个私有数据基线。我相信通过数据中心能拿到省级数据单元,大量数据覆盖绝大多数常见病。
第三,与单点顶级专科合作。他们有长周期的队列数据,多是疑难问题。我们目前和十几家顶级医院合作。在大模型上,结合数据中心训练,再用少量单点数据提升模型能力,这是我们的假设。合规上,数据通过科研合作协议获取,走三方脱敏的方式。
我认为未来医疗领域大多数公司都会走这条路。
👦🏻 Koji
前面提到咱们和一些医院有合作。现在医院对我们做医疗大模型的态度和评价是什么?他们会有担忧或顾虑吗?还是普遍比较积极支持?有没有哪位医生或院长给过你让你印象深刻的反馈?
👦🏻 王国鑫
其实相反,他们整体上是很支持的。我过去三年一直跑医院,体感上支持力度是越来越大。最早可能是一些院士从国家角度推动,后来到院长,现在很多大主任也有这个趋势。
合作医院有几个核心任务。
第一是学科建设。作为国家级医疗中心,他们有责任发展学科,而 AI 固化能力、支撑学科建设是必然的,医生培养也是必然任务,所以他们必须参与。
第二是服务患者。他们强烈希望延伸自己的服务能力,把经验进一步传递,这既是愿望也是责任,所以很愿意合作。
第三是 AI 已经进入医生的日常。特别是年轻主任,他们对 AI 的认知往往比我们还深。我认识一位院士学生、很年轻的主任,他对不同模型的能力评测和认知让我非常惊讶。未来成长起来的这一批优秀医生,一定会广泛使用 AI 工具提升效率。
当然医生群体内部差异很大,对 AI 的看法完全不同。我直观感受是:去年之前大家强调「不能犯错」,而今年已经转向「允许犯错,但要可控、要协同」。他们更关注哪部分可以替代、哪部分不能替代、如何落地场景,甚至会主动一起找场景、想办法。
这让人既兴奋又有压力,因为临床场景极其多变,对模型泛化能力提出更高要求。
👩🏻 Ronghui
那他们的反馈里,哪些领域最希望能尽快由 AI 提供帮助?
👦🏻 王国鑫
主要集中在三个领域。
第一是患者服务。很多医生看完病就结束了,但患者用药跟踪和诊前管理仍需要支持。医院很希望有类似服务机器人的 AI,能低成本、长周期陪伴患者,从而提升治愈率或康复水平。诊断只是一个决策,真正的健康掌握在个人手里,所以医院在长周期服务和转型上的需求很大。
第二是科室级研究。研究水平和人员培养对医院非常重要。未来医学院一定会思考如何用 AI 降低学习成本和犯错率。很多研究型医院会希望与我们共建科研平台,把他们的队列交给我们做自动化挖掘,从患者中发现新机会,探索新的疗法。
第三是效率。医院已经不能靠增加人力来解决问题,成本压力太大。所以他们更需要「助手」或「助理」型工具。有的医院甚至提出「医生分身」,用数字人的方式,把患者服务和效率结合起来。
底层来看,需求最集中的还是这三类场景。
👦🏻 Koji
这次咱们还发布了另一个产品——AI 医院 1.0。能不能向大家介绍一下,这是一个什么样的产品?对普通用户来说,它能带来哪些帮助和价值?
👦🏻 王国鑫
其实背后的逻辑很朴素。我们叫它 AI 医院,核心想法是:医疗服务专业属性很强。过去我们研发了很多 agent,比如心理医生、内科医生、药师、营养师等。每个 agent 都能在单点上做到极致优化,这是垂直 agent 的优势。
问题在于:这么多 agent,我们是让用户各自去找,还是把它们整合到一个统一入口?后者是我们希望做出来的。用户但凡有点不舒服,就能想到来这里,这就是我们希望建立的「心智入口」。因此取名 AI 医院,某种意义上,它代表了京东健康对未来健康入口的探索和争夺。
👦🏻 Koji
未来健康的入口。
👦🏻 王国鑫
对,我们甚至可以称它为「第一入口」这样更强烈的词,哈哈。
👩🏻 Ronghui
我感觉这个产品可能会包括两个方向:
第一,在一线城市,用户的认知正从「看病」转向「健康管理」。比如很多人会主动建健康档案,从被动看病转向主动减少生病的可能。
第二,在非一线城市,医疗资源缺口更大,AI 医院有机会成为获取更优质医疗服务的入口。
👦🏻 王国鑫
完全认同。AI 和移动互联网的本质区别在于:移动互联网改变了人和信息交互的方式,而 AI 更像是一种 B 端生产力。虽然谈 B 端在国内不算性感,但 AI 的核心确实是对 B 端的赋能。
如果推演未来:
如果从中国未来看,随着人口老龄化和地域差距加大,这种模式大概率会形成。当然支付模式也会随之变化,但那是另一个话题。
👩🏻 Ronghui
那你们计划如何让它真正落地?尤其是让最需要的人用到,而不只是停留在你们的产品层面?
👦🏻 王国鑫
其实京东互联网医院本身就在做这件事。互联网医疗的底层逻辑是异地医疗资源匹配和 7×24 小时可得性。AI 并不是一个全新的故事,而是叠加在原有互联网医疗基础上的进一步提升。换句话说,AI 医疗是互联网医疗的自然延伸。
👦🏻 Koji
说到「京医千询」,它是开源的吧?能不能具体介绍一下开源了哪些部分,以及为什么要开源?
👦🏻 王国鑫
先说「为什么」。医疗是一个信任驱动的行业。通过开源,我们能拉动生态合作伙伴参与进来,展示技术能力,让外界试用模型并反馈,从而反哺研发和生态建设。这是必须做的事情。
我们的开源力度也比较大:不仅模型开源,还包括训练代码和部分训练数据。我们希望参与者能真正复现工作,而不是只拿到一个结果。
👦🏻 Koji
也就是说,开源的核心目标是建立信任。那么开源之后,你们感受到这个目标实现了吗?有没有收到一些来自社区或合作伙伴的反馈?
👦🏻 王国鑫
主要反馈来自研究机构,包括大学和医院。尤其是小规模模型,很多合作医院会主动测试。这对我们推动专科合作帮助很大。开源让别人看到我们是真正做事的团队,增强了信任。
所以最大的收获是:医院和研究机构更愿意和我们合作。信任本身是无价的,而开源在这个过程中发挥了重要作用。
👩🏻 Ronghui
你前面提到,希望产品能够占领用户心智。我觉得确实有可能。尤其是如果越来越多的用户习惯用 ChatGPT 或其他 chatbot 来询问医疗问题,这对你们的入口优势会有影响,甚至可能冲击整个商业模式。那么你们是期待 AI 模型、AI 医院和现有的商业模式之间能产生怎样的联动?
👦🏻 王国鑫
在谈 AI 的商业模式时,我认为有几点是最有价值的。第一,是「高可靠替代」。哪怕只在一个很窄的领域,AI 如果能做到 99.9% 的可靠替代,这就非常重要。第二,是「连接」。AI 是否能成为更好的纽带,把消费者和服务连接起来。
在医疗领域,这两点都存在机会。结合京东健康的模式,我们必须回到集团的核心逻辑:我们是一家供应链驱动的公司。也就是说,我们的优势在于用最低的成本提供最优质的产品和服务。AI 在其中能起到巨大的连接作用。所以,对我们来说,入口型产品必须去争夺、去推进。
京东健康不仅是互联网公司,我们还有实体医疗机构和到家服务能力。比如,在很多城市,我们能做到 30 分钟送药上门。我们有体检中心、医院和药品供应链。在这个过程中,AI 的角色就是把这些服务能力连接起来,为患者提供一整套个性化的解决方案。
所以,这不是「要不要做」的问题,而是「怎么做」。未来的竞争,肯定会从单点的 chatbot 争夺,走向「chatbot 体验 + 后端服务能力」的结合,最终看能不能带给用户满意度。医疗的核心是有效性,只有有效才能生存。
👩🏻 Ronghui
那在后端服务上,你们会不会担心它影响前端 chatbot 的信息传递?
👦🏻 王国鑫
不会。我们把后端服务尽可能原子化。举个例子:护士上门做检查,就是一个原子化服务。模型的作用是:根据患者当下情况和沟通结果,判断是否需要触发这个服务,费用多少,以及患者是否愿意。
模型解决的是信息侧问题,而后端的供应链负责执行。我们的供应链不只是商品,还包含服务。这些能力是京东健康建立用户心智的基础。如果没有这些,我们就只是漂浮在空中的互联网公司。
京东的核心心智就是「高效率、低成本的服务能力」。在这个基础上,我们才有机会打造入口型产品。虽然入口产品难,但所有 AI 公司现在都在想这个问题。
👩🏻 Ronghui
那像其他基模公司呢?他们会不会基于用户在 chatbot 里的医疗咨询,去延伸出一些产品或服务?
👦🏻 王国鑫
很多基模公司都非常关注健康赛道。尤其一些大型 chatbot,有很大比例的流量是健康相关。这和当年搜索引擎占据心智的逻辑很像。很多人现在还是把大模型当搜索用。所以,对他们来说,这是一个非常想做的赛道。但关键问题在于:这个行业到底有没有门槛?商业化成熟度够不够?
对京东来说,我们更多把他们当合作伙伴,而不是竞争对手。另外,京东也在 JDD 大会上发布了自己的通用 chatbot——全新升级的 JoyAgent3.0。我当然希望它能在市场上快速站稳一席之地,推动集团内部产业协同。
👩🏻 Ronghui
Nico,可以跟我们讲讲 AI + 医疗在更广范围,比如美国、欧洲和中国的差异?在这些市场,有哪些值得关注的创新或成功案例?比如,美国的 OpenEvidence 在融资和收入方面都做得不错。
👦🏻 王国鑫
医疗 AI 在海外和国内的迁移性不像其他行业那么强。关键差异在于支付逻辑(payer)和医疗体制。中国强调效率和公平,虽然大家抱怨「看病难、看病贵」,但如果放在美国,问题会更严重。
OpenEvidence 在美国能商业化,很大原因在于医生收入高、诉求强,他们愿意为工具付订阅费。但在国内,我们的模式是免费的,比如这次开放的寻证库,完全没有订阅费。这就是「橘生淮南则为橘,生于淮北则为枳」。
不过,也有一些海外模式值得关注。比如,美国有不少 AI 驱动的互联网医疗 + 特色药品服务公司。以 Hims 为例,它定位是「让人变美、变好」。本质上是依靠特色药品供应链,但前端获客和服务都是 AI 化的,不断给用户健康建议。
总体来看,医疗解决方案往往还是药品、器械或生活方式改变。AI 可以帮助医院提升服务,也可以帮助药企、器械厂商或数字疗法公司服务用户。
除此之外,还有给医院端的 AI 服务模式。国内医院的信息化渗透率已经比较高,但采购周期很长。我们也有智慧医疗部门,比如京东卓医(JOY DOC),目标是用 AI 改造医疗和患者服务。
最后就是 ToG,面向政府,服务医保和卫健委。这在美国相对较少。
总结来说,中国市场的商业机会,最终还是会回到患者服务这个赛道,更符合本土土壤。
👦🏻 Koji
Nico 刚才也讲到,这三年你经常跑医院,也在沉浸式地思考 AI 加医疗如何真正帮助大家变得更健康。那如果回到一个朋友聊天的场景,今天我们见面了,我问你:你研究了这么多 AI 和医疗健康,现在能不能给我们一些建议?就是那种小的、可行性高的,让听众听完后就能拿去用一用,从而让自己过得更健康的办法。你会怎么回答?
👦🏻 王国鑫
从长周期健康来看,影响因素主要有两个:一是个人在慢病和免疫力上的表现,二是重症风险。随着年龄增长,在健康检查和提前预防上的投资一定是值得的。
举个例子,35 岁之后,我认为每年都应该拿出一部分固定预算投入到个人和家庭健康上。这笔钱不需要很多,但必须固定拿出来,有意识地通过经济手段推动自己行动。从统计学来看,这实际上是省钱的,因为很多疾病早期发现是可以治愈的。关键是要设立预算,并在预算范围内找到最好的医疗服务。
👦🏻 Koji
对,我觉得这个非常有意思。就是钱先拿出来,再去研究怎么花,倒逼自己去做事。比单纯说「大家要去体检」更有效,因为必须把钱花掉,不然年底就得给自己一个惩罚。
👦🏻 王国鑫
对。当然不是每个人都需要去做胃肠镜,这取决于家族史和个人风险。我只是举个例子。核心逻辑就是:先设预算,再去做适合自己的健康投资。健康本身挺反人性的,往往只有失去的时候才意识到它的重要。
👩🏻 Ronghui
那 35 岁以下的人怎么办呢?
👦🏻 王国鑫
道理是一样的。尤其要关注家族史和自身状态。有些事情是可以长期坚持的,比如监控血压、血糖。这看似简单,但对早发现、早干预非常有帮助。同样是糖尿病,早发现早控制和晚发现晚控制的结果差异巨大。很多疾病在早期是有解法的,一旦错过窗口,就只能缓解而无法根治。
👦🏻 Koji
我们聊了很多医疗大模型,但其实听众里很多人并不在医疗领域,而是做各种垂直模型的。你觉得医疗大模型的经验,能如何迁移到金融、法律等其他领域?
👦🏻 王国鑫
其实这些行业的技术思路很相通。医疗、教育、法律、金融,本质上都是在复杂情境中建模和优化。比如教育里的个性化学习路径,法律里的多步推理,金融里的投资组合推荐,都需要处理高度结构化的数据,并进行融合推理。这就是为什么医疗的经验很容易迁移到这些行业。
👩🏻 Ronghui
那如果你是投资人,你会怎么判断一家垂直大模型公司能不能做起来?你最关心的指标是什么?
👦🏻 王国鑫 我主要看三点:
👩🏻 Ronghui
今天非常感谢 Nico 来做客「十字路口」,分享了很多在医疗大模型上的经验。这个领域既有价值,又备受关注和期待。我们也希望 AI 能真正让更多人享受到技术带来的医疗成果。
👦🏻 Koji
谢谢。
👦🏻 王国鑫
谢谢二位,拜拜。
文章来自于微信公众号 “十字路口Crossing”,作者 “十字路口Crossing”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales