正 文
在当今数字化时代,人工智能(artificial intelligence,AI)技术迅猛发展,尤其是生成式技术,如ChatGPT(chat generative pre-trained transformer),对人类生活的影响日益深远。我们逐渐聚焦于开发服务于AI驱动的科学研究(AI for science, AI4S)模型。AI4S 模型以数据驱动为特点,通过分析海量的科学依据,深入理解其内在规律和分布特征,从而自主生成新的、合理的、有价值的洞见,如药物机制、分子结构、工艺路线、试验方案等[1]。这种洞见的生成不仅包括新内容,还包括新的理解[2]。最重要的是,AI4S能够将真实人类个体转化为数字世界中的虚拟对应体,即数字孪生[3]。
因此,AI4S在药物研发与临床实践中的应用已经展现出巨大的潜力和影响力。我们正在见证知识驱动型AI4S模型、数据驱动型AI4S模型、电子药物及虚拟临床试验等创新技术的崭露头角,这些技术正在重新定义医学科学的面貌。本文将探讨AI4S在药物研发和临床实践中应用所取得的进步,并展望AI4S在数字化时代医疗中的发展趋势。
1 . 什么是AI4S
AI4S 是指利用AI技术来辅助科学家进行数据分析、模式识别和预测,从而有效解决复杂科学问题并推动科学研究和发现。AI在多个领域发挥着重要作用,包括但不限于生物学、医学、药物研发、气候科学、天体物理学、材料科学、认知科学、机器人技术和量子计算等[4]。通过机器学习、深度学习和自然语言处理等AI技术,科学家能够加速研究进程、获得新的见解并解决以往难以攻克的问题。因此,AI4S正逐渐成为现代科学研究中不可或缺的工具,与人类的专业知识和创造力相辅相成。
尽管AI4S在某些研究领域表现出色,但目前仍面临一些局限性和挑战。首先,AI4S缺乏人类科学家的创造力和直觉,而许多重大科学突破源于科学家的创新思维和跨学科洞察力。其次, AI4S在确定因果关系方面仍然面临挑战,尽管擅长发现相关性,但科学研究通常需要设计实验来检验假设并确定因果机制,这方面AI4S仍有不足。再者,AI4S在掌握领域知识和理解复杂科学概念方面存在困难,尽管可以从大量文献中学习,但要全面掌握一个领域的深度知识仍具有挑战性。此外,科学研究通常涉及“与人相关的”伦理考量和价值判断,AI4S目前不能真正与人共情,因此只能模仿人类做出类似判断,难以在关乎人类群体和个体利益的决策上完全令人信服。最后,虽然AI4S 可以在某些任务中提供帮助,但由于缺乏目标和动机,许多科学研究仍必需人类科学家的设计和监督。尽管存在这些局限性,AI4S在科学研究中的应用正在不断发展。未来,AI4S可能会在分析大规模数据集、优化实验参数和预测复杂系统的行为等任务上超越人类科学家。因此,与人类科学家的创造力、领域专长和批判性思维在科学研究中紧密合作,AI和人类科学家的协同工作可能是推动科学发现的最佳途径。
过去10年, AI 在科学发现中的应用日益增多,以增强和加速研究。AI可以帮助科学家生成假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。科研领域出现了一些突破性进展,其中包括:自监督学习[5]、几何深度学习[6]和生成式AI方法[7]。自监督学习允许模型在大量未标记的数据上进行训练[8],而几何深度学习利用科学数据结构的知识来提高模型的准确性和效率[9]。此外,生成式AI方法通过分析多种数据模态(如图像和序列)来创建设计,如小分子药物和蛋白质[10]。这些方法在科研过程中为科学家提供了重要帮助。然而,尽管取得了这些进展,AI在科研工作中的应用仍然面临一些核心问题。首先,AI工具的开发者和用户必须明确何时需要改进这些方法。其次,数据质量差和管理不善的问题依然存在。这些挑战跨越不同的科学学科,需要开发基础算法方法,以便能够为科学理解做出贡献或自主获取科学理解。这些问题是AI创新的关键重点领域。
AI4S涉及多种模型,包括语言模型、知识模型、视觉模型和序列模型等[11]。这些模型不仅可以基于其用途进行分类,还可以根据功能进行划分。语言模型主要用于处理和生成自然语言,如GPT、自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)等[12-13]。知识模型用于捕捉和表示领域知识,例如知识图谱和±本体[14-15]。数据模型用于组织和结构化数据,如关系模型和图模型[16-17]。视觉模型用于处理和分析图像、视频等视觉数据,如卷积神经网络(convolutional neural network,CNN)[18]。序列模型用于处理和生成序列数据(如时间序列和基因序列),如循环神经网络(recurrent neural network, RNN)和Transformer等[19-20]。同时,AI4S 模型基于功能的分类还包括内容生成模型、仿真模型、评分模型、优化模型、因果推理模型[21]和解释模型[22]等。这些模型在科学研究中发挥重要作用,为科学家提供了多种工具来探索、理解和解决复杂问题。此外,根据模型的训练方式,还可以分为监督学习模型、无监督学习模型、半监督学习模型、自监督学习模型和迁移学习模型[23-24]。监督学习模型使用标记数据训练[25],无监督学习模型使用未标记数据训练,如聚类模型和降维模型[26]。半监督学习模型同时使用标记和未标记数据训练,自监督学习模型利用数据结构信息进行训练[27-28]。迁移学习模型则将在一个任务上训练的模型应用于另一个相关任务[29]。这些模型种类并非相互独立,而是可以相互结合和嵌套使用。例如,一个药物发现的AI系统可能同时使用知识模型、生成模型、评分模型和优化模型。随着AI技术的不断发展,未来可能会出现更多新的模型种类和范式。
2 . AI4S在医学及药物研发领域的挑战
在药物开发和医疗保健领域,AI4S 正发挥越来越重要的作用,有望加速新药研发并改善患者护理。AI4S在这些领域的具体应用包括:药物发现、临床试验设计、精准医疗、药物安全监测、伴随诊断与新适应证开发、药物合成和虚拟药物筛选[30]。
通过分析数据和优化各个环节,AI4S以大幅度缩短药物研发周期、提高实验效率、个性化治疗方案、加强药物安全性监测、协助医疗诊断、优化药物合成路线以及筛选最有希望的候选化合物[31]。
目前亟需解决的问题不仅包括在算法和算力提升,更需要针对当前领域的复杂情况,解决诸如数据采集和生成、质量与版本控制与数据的共享机制等挑战。此外,为了推动AI4S的发展,促进创新并保障人类利益还需要更多监管要求和伦理考量。现阶段主要的问题还在科学方面。一方面科学研究结果迅速涌现;另一方面,新技术手段层出不穷,帮助我们打开了观察生理和病理现象的全新维度。然而,大量知识和数据的涌现并未促进人类科学家突破“思维茧房”,提出解决特定疾病的全新理论体系和路线图,也未能促进药物研发的目标更加清晰、靶点及药物与适应证之间关系更加明确。因此,也未能降本增效,以发动机方式源源不断产生洞见并高效转化于临床。
这一问题的根源在于研究范式并未改变以人(作为研究者)为中心的探索和转化方式,导致数据和知识堆积,而不能高效转化为面向解决人类健康问题的新质生产力。因此,我们探讨一种新的基于AI4S 的人类健康研究范式。通过这些工具建立的AI4S 系统,科学家可以与AI携手合作,共同解决人类健康问题。
3 . 目前最需要什么AI4S
当前,最需要的AI4S不是单纯的分子设计或者说从靶点到分子阶段的应用,而是利用AI深入理解疾病本质,并提出根本性方案,这是AI4S在医疗领域最具变革性的应用之一,也将从根本上改变我们对疾病的认识和治疗方式。疾病机制解析是其中至关重要的方面。通过整合和分析基因组学、蛋白质组学、代谢组学等多组学数据以及临床数据和科学文献,AI4S能够全面揭示疾病的分子机制,帮助确定疾病的关键驱动因素和潜在的治疗靶点。同时,AI4S还能深入探索疾病中相关基因、蛋白质、代谢和环境因素之间的复杂相互作用,从而分类疾病亚型,并为每种亚型设计个性化的治疗策略。通过深入理解疾病机制,AI4S还有助于发现新的治疗方法,如识别新的药物靶点、优化组合治疗方案,或设计基于特定分子机制的精准治疗方法。AI4S 还可用于疾病预防,通过分析个人的基因组、生活方式和环境因素,评估未来疾病的风险,并提出个性化的预防策略。
实现这些目标需要多学科协作,整合生物学、医学、化学、物理学、计算机科学和数学等多个学科的知识和技能。尽管利用AI4S 来理解疾病机制和开发根治性疗法面临诸多挑战,如生物复杂性、数据质量和伦理考量等,但这无疑是一个非常有前景和影响力的研究方向,有潜力彻底改变我们对疾病的理解和治疗方式,为患者带来更有效、更精准、更个性化的医疗方案。
4 . AI4S平台的协作
为了利用AI4S掌握疾病机制并提出根治方案,不同AI4S平台需要协同工作,包括知识驱动型AI4S 模型、数据驱动型AI4S模型、真实患者的数字孪生及虚拟临床试验。这些平台为我们提供多样化的工具和方法,加速对疾病的理解和方案的开发。知识驱动AI4S 模型从海量数据中挖掘关键信息,而数据驱动型AI4S模型提供更准确的预测和分析。真实患者的数字孪生和虚拟临床试验帮助理解疾病的发展过程和治疗效果,指导临床实践和决策制定。因此,不同类型的AI4S平台协作,能提供更全面深入的洞察,推动医学进步。接下来,将详细介绍这些平台。
4.1 知识驱动型AI4S:理解疾病机制和开发新药的重要工具
医学一直在探索疾病本质,但所需信息量巨大,涉及众多功能系统和复杂且漫长的因果链条。不同患者的致病因素和表型多样,导致治疗方法差异巨大。尽管科学家在各专病领域深耕多年,但面对恶性疾病仍常束手无策,主要原因是临床端数据采集、分析、整合、理解、提出假说和验证周期过长,常超过个人生命周期。此外,各环节的信息整合效率低下,科学家难以从全局理解疾病。同时,科学家可能对本领域同行的所有工作不完全了解,也未必充分掌握历史上前辈的探索和相关领域积累的宝贵知识和经验。例如,截至2024年4 月,数据库中已经超过10 万篇关于新冠肺炎(COVID-19)的科学文献。然而,即便有GPT这样的AI工具,如何建立全景式的认知地图,整体回顾和理解应对新冠病毒的努力,仍是一项重要但未完成的任务。
知识驱动型AI4S为这一任务提供了全新的解决方案。通过挖掘文献、多组学数据整合、医学影像分析、电子病历发掘、生理学建模、患者异质性分析,研究文档分类和信息获取和因果推断等手段,AI4S能够获取知识和规律,并做出判断,深入理解疾病的本质。在理解疾病的过程中,知识驱动型AI4S可以扮演关键角色,甚至与人类专家互换角色。举例来说,对于老药新用治疗狂犬病患者的问题,假设当前患者被犬类咬伤感染狂犬病毒,未及时接种疫苗而发病,AI4S如何自动化解决这个问题?我们提出基于TWIRLS方法[32]的狂犬病认知模型(“超脑”),通过自动化老药新用评分流程(图1)来应对此类情况。首先,AI4S 通过挖掘除疫苗以外的所有狂犬病相关文献,提取知识颗粒(即特定研究方向的结构化多维信息复合体)。然后,AI4S利用这些知识颗粒训练神经元,使其能够感知特定内容,构建超脑,对内容的感知转化为解决问题的认知。超脑通过阅读狂犬病的临床病例进行进一步训练,形成世界上最深入理解狂犬病的认知AI模型。接着,利用模型阅读所有已上市药物的说明书和相关文献,并为每个药物评分。评分越高,越适用于当前临床场景,患者越可能从中获益。这种模型不仅为药物研发提供重要参考,还能搭建结构化的疾病知识库,为医学专家提供新可能性。
图 1 基于TWIRLS 方法构建狂犬病认知模型自动化老药新用评分模型流程
以狂犬病老药新用为例,展示了一种使用多模型联用的AI流程。它可以帮助找到潜在适用的 “老药”、理解排名靠前药物的药物机制、建立结构化的疾病知识库。这一方法提高了医生的工作效率,节约了专家的时间,使他们能更深入地挖掘临床端更深层次的患者需求,引导AI为人类提供更好的服务。
在传统医学难题的研究中,知识驱动型AI4S 发挥关键作用。利用深度学习和数据挖掘技术,AI4S模型能够快速从庞大的研究文献中提取关键信息,发现新的治疗方法和药物靶点,从而加速科学研究进程。这种高效的信息筛选和分析能力为医学科研工作者节省了大量时间和精力。例如,在癌症研究领域,知识驱动AI4S不仅可以帮助科学家们更好地理解癌症的发病机制和治疗方法,还为癌症的早期诊断和治疗提供重要支持[33]。通过分析大量的癌症研究文献和临床数据,AI4S模型能够快速准确地识别癌症的潜在治疗靶点和预测患者的治疗反应。
综上所述,知识驱动型AI4S在医学领域不仅支持药物研发和临床实践,随着技术进步和数据积累,AI4S还将推动医学科学的进步和发展,应用前景十分广阔。
4.2 数据驱动型AI4S:从真实患者到数字孪生
在数字化医疗领域,建立真实世界里的患者和健康人的数字孪生是关键任务,数据驱动型AI4S在其中发挥重要作用。数字孪生为药物研发和临床医学的个性化医疗和精准预防提供了支持。通过采集大量真实世界人类数据,AI4S能精确定位个体,构建针对特定疾病的数字孪生模型。这些模型不仅助力药物研发,包括精准用药、人群差异化、生产质量控制、药物重定位、靶点发现、药物组合、虚拟临床试验、分子发现和定量药理[34]等,还推动临床医学的发展,如个性化医疗、精准预防、高效早诊、手术规划、治疗方案、多学科决策、远程医疗、健康管理和虚拟试药[35]等。
数字孪生的建立基于一系列核心理念。首先,真实世界的人类数据包含个体差异信息,AI4S利用这些信息在数亿人群中精确地定位特定个体。其次,AI4S通过深度学习和机器学习等先进技术,提取多维特征,保持差异信息并排除噪声。第三,基于多维特征,AI4S为每个个体构建准确可靠的数字孪生模型。第四,建立包含大规模真实人群的数字孪生“元宇宙”作为全新的健康基础设施,满足不同临床或保健需求,实现多功能应用,从临床诊疗到新药研发,为健康管理提供更多可能。
疾病的发生和发展是一个综合且复杂的过程,受到基因突变、环境因素、生活方式等多种因素的影响。人类疾病数据通常是“小数据”,尤其对于罕见病。即便是癌症与自身免疫性疾病,由于其病理复杂和疾病机制的异质性,每个亚型数据也相对有限。然而,AI4S作为生成式模型,需要大量数据来建立有效的数字孪生模型,其建立过程依赖于统计分布和变量间的条件概率关系。在数据不足的情况下,盲目建立和使用大模型对解决真实临床问题的作用非常有限。为了解决这些问题,需要回归第一性原理,从最有价值的数据出发,建立适用于小样本的AI4S疾病模型。DNA数据是最基础的数据,其他数据包括转录组、表观遗传学、单细胞数据以及生活方式和环境因素等都是在此基础上层层叠加和相互作用的。目前,DNA数据是最稳定和标准化的工业界数据,也是临床实践中最稳定且可以大量获得的数据。因此,基于人类基因组DNA序列信息,读取每个人更多的机制性定量信息,构建更接近真实个体的数字孪生。
4.3 电子药物:模拟真实药物机制的药物数字孪生
在数字化时代,电子药物的开发已经成为医学领域的一项重要任务。电子药物的开发是在患者和疾病的数字孪生基础上,利用AI4S模型建立药物疗效的评分模型,进行虚拟临床试验,探索药物的适用人群、新适应证、潜在耐药原因以及联合用药方案的理性设计。建立有效的药物数字孪生,即“电子药物”,有多种关键策略。
第一种策略是基于靶点和既往同类药物的已有知识,利用知识驱动型AI4S模型建立电子药物。这包括建立知识库、构建药物真实作用机制(mechanism of action,MOA)模型,提取生物标记物、药物敏感或耐药的机制等信息,并将这些信息转化为数字标签。这些标签在患者的数字孪生数据库中通过非监督方式进行标注,这一过程相当于虚拟临床试验,最终标注的统计分布结果即为虚拟临床试验的结果。第二种策略是基于靶点的分子生物学和细胞学数据建立功能性和数字化标签,然后按照第一种策略中的标注和统计方法进行模拟。第三种策略是通过不同疾病特征人群间接建立药物模型。例如CDK4/6抑制剂在雌激素受体(hormone receptor,HR)阳性、人类表皮生长因子受体2(human epidermal growth factor receptor2, HEGFR-2)阴性乳腺癌患者治疗中获得成功[36],而在三阴性乳腺癌患者中效果不佳[37]。这种差异可以通过特定组学数据反映出来,并转换为评分,作为判断CDK4/6抑制剂的电子药物使用标准。在适应人群特征相对明确的条件下,再开展严格的临床试验,以开发新的适应证。
第二个临床案例涉及肺腺癌不同分子的病理型研究,采用AI4S模型基于组学数据建立了程序性细胞死受体1/程序性细胞死亡受体-配体1(PD-1/PD-L1)单抗类药物的电子药物。此电子药物模型在上海市胸科医院9例肺癌免疫药物一线治疗中进行了两轮回顾性预测。在第一轮预测中,仅采用肿瘤基因组数据,结果显示其中2例患者预测错误(2/9)。在第二轮预测中,增加了胚系基因组数据,所有患者的预测均正确(9/9)。这表明结合胚系基因组和肿瘤基因组,可更准确理解和预测肿瘤功能和药物反应。之前的三阴性乳腺癌研究[38]发现,胚系基因组编码了免疫系统先天的抑制状态。因此,即使这类患者的肿瘤并未产生免疫抑制, T细胞也难以浸润肿瘤组织,导致免疫药物无效[38]。这一发现进一步说明,结合胚系基因组和肿瘤基因组的分析可以全面理解肿瘤的免疫学特性。更重要的是,利用上述方法建立的电子药物模型,不仅可以预测PD-1/PD-L1单抗的疗效,还揭示了PD-1/PD-L1在泛癌种中出现耐药现象的基本规律。对这一规律的理解,有助于识别导致原发耐药的信号通路,为新药研发提供重要的线索和指导,从而推动抗肿瘤药物的创新和发展。
医药科学家可以在虚拟环境中模拟药物作用机制、药效评估和安全性评价,从而提前发现潜在的副作用和不良反应。这不仅节省时间和成本,还最大限度地减少了动物实验和临床试验的需要,提供了更可持续和人性化的药物研发方案。基于电子药物模型的个体化治疗方案已经成功应用于肿瘤、心血管疾病和神经系统疾病等[39-41]。这些方案根据患者的基因型、病理生理特征和临床表现,精准地指导药物选择和用量,提高治疗效果,降低不良反应的发生率,为患者带来更好的治疗体验和生活质量。
4.4 虚拟临床试验:利用电子药物和真实患者的数字孪生模拟真实临床试验
在数字化时代,药物研发的关键部分已经转向虚拟临床试验[42]。这些试验通过将“电子小人”置于数字化的药物环境中,在云端进行大规模虚拟临床试验,以评估药物疗效和安全性。
在虚拟临床试验中,每个“虚拟患者”被赋予各种生理参数、基因型、病理特征等信息,这些信息与真实患者相对应。然后,针对不同的药物或治疗方案,模拟“虚拟患者”接受药物治疗的过程,观察药物的疗效、副作用以及潜在的耐药机制等。这种方法可以在不同条件下模拟临床试验结果,加速药物研发过程,减少实际临床试验的成本和时间,大幅降低药物临床研发成本并显著提高成功率。
目前,一些研究者已尝试针对肿瘤治疗进行回顾性和前瞻性的虚拟临床试验,特别是应用定量系统药理学(quantitative systems pharmacology,QSP)模型在多种癌症中,例如三阴性乳腺癌[43]、非霍奇淋巴瘤[44]、非小细胞肺癌[45]、黑色素瘤[46]、结直肠癌[47]、肝细胞癌[48]等。研究[47]发现,特定免疫细胞浸润等患者特征可以作为药物响应的潜在生物标记物,希望未来能够帮助真实药物临床实践进行患者分层。另外,有研究团队利用多组学机器学习预测器进行虚拟临床试验,预测乳腺癌患者对化疗的响应[49] 。在对168例乳腺癌患者的数据中,发现肿瘤突变、拷贝数变化、肿瘤增殖、免疫浸润和T细胞功能失调等患者特征与治疗后的疾病残留程度相关[49]。基于这些特征训练的机器学习模型在75 例患者的验证集中成功预测了患者对治疗的完全响应[49]。
虚拟临床试验的实现依赖于AI4S模型对于人类生理、疾病机制和药物作用机制的精确模拟。通过理性开展真实临床试验并不断积累和更新数据, AI4S 模型能够不断提升其预测准确性,为药物研发提供更可靠的支持。因此,虚拟临床试验将现实药物的研发过程数字化,并借助AI4S模型,实现更快速、更有效的药物开发和临床应用,为医学带来突破性进展。
5 . 结论
数字化医疗已经成为医学领域的重要趋势。知识驱动型AI4S、数据驱动型AI4S、电子药物和虚拟临床试验在药物研发和临床实践中发挥着关键作用,为医学科学的发展带来了新的机遇和挑战。结合上述AI4S 工具,我们总结了整体范式(图2),具体描述并展望未来医学及药物研发领域的工作模式。
图 2 未来医学及药物研发领域工作模式的整体范式
知识驱动型AI4S通过大规模挖掘文献和整合数据理解疾病的本质,为药物研发提供重要参考。数据驱动型AI4S 利用临床多组学和大数据技术建立患者和疾病的数字孪生,推动以患者为中心的药物研发和个性化医疗的发展。电子药物为药物研发带来新的机遇,虚拟临床试验数字化评估药物疗效和安全性,并在真实临床试验得到验证,提高药物研发和临床实践效率和成功率,有助于攻克各种疾病。随着AI4S技术进步和医学数据的持续积累,数字化医疗继续完善,将为人类健康事业带来更大的进步和益处。
文章来源于“中国胸心血管外科临床杂志”,作者“张春莉”