当 2003 年人类基因组测序首次完成时,我们获得了一本厚达 30 亿个遗传字母的“天书”,却发现自己只能读懂其中 2% 的“文字”(编码区),剩下的 98% 被称为基因组的“暗物质”。
近日,由谷歌旗下 DeepMind 公司开发的人工智能模型 AlphaGenome 登上 Nature封面。该模型主要用于理解 DNA 序列如何调控基因,帮助科学家发现为什么我们 DNA 中的细微差异会让我们面临高血压、痴呆症和肥胖症等疾病的风险。
DeepMind 于 2025 年 6 月首次在 bioRxiv 发布 AlphaGenome 的预印本,并开放 API 预览。但模型在 Nature正式发表后,团队同时宣布了完全开源研究代码和模型权重。
AlphaGenome 是 DeepMind 继 AlphaFold 之后的又一力作。
该模型的核心优势在于其统一预测能力:它能一次性输入长达 100 万个碱基对的 DNA 序列,以单个碱基分辨率同时输出数千种功能基因组特征,包括基因表达水平(RNA-seq、CAGE)、RNA 剪接位点与强度、染色质开放性、组蛋白修饰、转录因子结合位点以及染色质三维接触图。通过对比突变序列与野生型序列,AlphaGenome 能在几秒内高效评分遗传变异的功能影响,这在过去往往需要数年湿实验验证。
在 Nature 论文中,该模型在 26 个变异效应预测基准任务中,有 25 个达到或超越现有最强模型(如 Enformer、Borzoi、ChromBPNet),尤其在非编码变异解读上表现出色。它基于人类和小鼠的 ENCODE、GTEx 等大规模多组学数据训练,覆盖数百种细胞类型和组织。
AlphaGenome 的潜在应用前景尤为广泛。
在癌症研究上,AlphaGenome 已成功破解 T 细胞急性淋巴细胞白血病的致病机制,能精准找到导致癌基因异常激活的非编码突变,还能说清这些突变是如何通过改变基因调控引发癌症的。这能帮科学家更快锁定癌症驱动突变,找到新的治疗靶点。
在罕见病诊断方面,对于很多病因不明的罕见病,它能准确识别 DNA 中导致疾病的关键变异,比如哪些变异破坏了基因正常功能、影响了蛋白质结合。这些信息能帮医生解读疑难病例,给 “不知道是什么变异致病” 的情况提供明确线索。
在合成生物学中,可以指导设计定制化的 DNA 序列,比如打造只在神经细胞里起作用、在肌肉细胞里 “沉默” 的基因开关,或是优化用于治疗的核酸药物。这能让生物设计少走弯路,加速基因疗法和生物制造的发展。
在药物开发和精准医疗方面,能更准确判断基因变异对疾病的影响,帮科学家从海量基因数据中快速找到关键靶点,缩短药物研发时间。还能为个性化治疗提供依据,比如针对不同人的基因调控特点,设计专属疗法,不管是罕见病还是高血压、痴呆症这类复杂疾病,都能提升诊断和治疗效率。
此外,YouTube 上还放出一支视频,DeepMind 产品经理 Dhavi Hariharan 与基因组学项目负责人、研究科学家 Ziga Avsec 以及 AlphaGenome 的参与者 Natasha Latysheva、Jun Cheng 和 Tom Ward 一起,分享了 AlphaGenome 背后的故事。
他们讨论了为什么开发 AlphaGenome、对模型进行了深度剖析,并分享了下一步计划。

(来源:YouTube)
Dhavi:为什么要构建 AlphaGenome?它如何契合团队的整体使命?
Ziga:我们团队的核心使命是构建一套能够“破译基因组序列”的 AI 系统。基因组(即 DNA)是进化历程在数百万年间、为数百万个物种编写的“源代码”。它是生命的底层逻辑。破译这一代码将为人类健康及诸多领域带来不可估量的益处。而衡量这一目标进展的关键指标,就是看我们能否准确预测 DNA 的微小变化(即突变)对读取这些代码的细胞分子机制产生何种影响。
Dhavi:为什么这种能帮助我们破译基因组的 AI 如此重要?
Ziga:深入理解基因组对每个人的生活都有着深远影响。目前,仍有很大一部分罕见遗传病处于“无法诊断”的状态。我们对基因组整体的认知其实非常匮乏,而 AI 正是读取基因组、并对遗传突变做出有意义预测的绝佳利器。在我看来,理解基因组并预测突变影响,是 AI 最具社会价值的应用之一。
Dhavi:你是如何对这个领域产生兴趣的?
Jun:我从博士期间就开始研究遗传突变预测,并一直深耕至今。加入 DeepMind 后,我主导了 AlphaMissense 项目,该方法主要预测编码区(仅占基因组 2%)的遗传效应。但剩下的 98% 呢?这正是我们今天推出 AlphaGenome 的原因——它聚焦于占据基因组绝大部分的非编码区,力求照亮这些未知的领域。
从感性层面来说,我投身生物学是因为高中时读到的一本大学教科书,书中描述了生命中那些精妙、复杂且优雅的分子机制,那份震撼让我决定将其作为终身事业。Tom,你的经历是怎样的?
Tom:身处这样一支跨学科团队感觉非常棒。对于非生物学背景的人来说,遗传学是一个极具魅力的未知领域。能够探究 DNA 中极其微小的变化如何在人类及其他物种中产生宏观影响,这本身就令人神往。目前,尤其是机器学习与计算生物学的交叉领域,正处于爆发式增长期,这里充满了无限可能。
Ziga:我还记得加入 DeepMind 之前,我研究过一个叫 VPNet 的小模型。以今天的标准来看,它很“迷你”:输入 1,000 个 DNA 碱基对,预测极高分辨率的转录因子结合。当时我惊叹于这种碱基级信息的丰富与精确,但它更像是对特定生命过程的“微距摄影”。
因此,加入 DeepMind 后,我渴望挑战更复杂的生命过程。我们与 Calico 的 David Kelly 合作,挑战了从 DNA 序列预测基因表达这一极难的课题。为了捕捉尽可能多的相关片段,我们必须显著增加序列长度,但这又不得不牺牲掉 VPNet 引以为傲的高分辨率。在“序列长度”与“分辨率”之间,似乎永远存在着一种不可兼得的权衡。
Dhavi:那么,AlphaGenome 试图填补的行业空白是什么?
Ziga:此前已有一些序列到功能的模型,最接近的是我们团队的 Enformer 和 Calico 的 Basenji。此外还有许多单任务模型,如预测剪接的 SpliceAI、预测染色体接触图的 Akita 等。
AlphaGenome 的突破在于,它在单一模型中集成了前所未有的多模态能力。它拥有兆碱基(Megabase)级的输入长度,同时输出单碱基分辨率的精准预测。这种多模态覆盖、超长序列与精细输出的结合,使其在变异效应预测和解读方面异常强大。以前你可能需要多个模型才能完成的分析,现在只需这一个模型,就能从多个维度审视变异对分子生物学各层面的影响。
Dhavi:为什么“长上下文、高分辨率、多模态”同时实现如此困难?
Tom:这类模型的工作原理是输入 DNA 片段并预测现实世界的实验数据。当你追求更长范围、更高分辨率且包含多种实验模态时,会迅速触及计算极限和海量的显存占用。从工程角度来看,这极具挑战性。在开发 AlphaGenome 时,我们极其渴望打破这些权衡,将一切功能整合进同一个模型。
Dhavi:你们最终是如何攻克这个难题的?
Ziga:我们采用了序列切分技术,将长序列分成不同的子段,利用多个 TPU 并行处理。这种方法让单个 TPU 的显存压力骤减。关键在于确保这些 TPU 之间依然能实时“对话”,让序列开头的 TPU 1 能与序列末尾的 TPU 保持通信。
我至今记得和同事 Guido 吃午饭时分享这个灵感的场景。午饭结束时,我们都不确定这是否可行。几天后,他跑来告诉我:他用模拟数据跑通了一个原型,速度几乎与我们以前的训练循环一样快,且能处理超长序列。那一刻我激动不已,因为我知道我们从理论上打破了长序列与分辨率之间的枷锁。但在实践中,距离真正的成功其实还有很长的路要走,对吧 Tom?
Tom:没错。搞定模型并行化后,下一个难关是海量训练数据的吞吐。我们一度需要每秒加载 40-50 GB 的数据才能跟上训练速度。我们有两个核心发现:首先,生物数据其实极度稀疏(某些模态 99% 都是零值),因此我们将精力集中在极致的数据压缩与解压技术上,从而打破了加载瓶颈。
其次,我们对训练数据采取了“冷酷”的筛选标准,通过多轮质量检查,确保数据要么具有极高质量,要么能增加模型的多样性,从而提升泛化能力。搞定数据后,我们终于能高效迭代模型。在完善了 1D 轨迹预测后,我们转向了更具挑战性的 2D 数据——染色体接触图和 RNA 剪接。Jun,你在剪接方面投入了大量精力,那真是个棘手的问题。
Jun:是的,非常棘手。剪接(Splicing)是基因正确表达蛋白质的关键过程。遗传信息在基因组上是非连续编码的,必须通过剪接将这些信息拼接在一起。如果发生突变导致剪接缺陷,就会引发遗传病。我博士期间做过类似研究,但模型效果远不如现在。在 AlphaGenome 项目中,得益于卓越的团队、Guido 和 Tom 的工程支持,我们终于集齐了所有技术拼图。我们要预测的是极度稀疏的 2D 阵列而非 1D 轨迹,最终攻克它时我非常欣慰。这种能力在领域内是首创的。
Natasha:关于接触图(Contact Maps),它们是捕捉 DNA 区域间相互作用的 2D 矩阵。基因组在细胞核内折叠成复杂的三维形状,这种物理距离的接近(如启动子与增强子的互动)对基因调节至关重要。幸运的是,我们将这一 2D 模态成功引入了模型并实现了端到端训练,且没有牺牲其他模态的性能。
Ziga:事后看来,这符合逻辑:所有这些模态或测量手段,本质上都在观察同一种底层的生命过程(如转录或剪接)。但看到模型能同时兼容 1D 和 2D 预测且性能互不干扰,依然令人欣喜。
Dhavi:随着新模态的加入,你们如何评估模型性能?
Natasha:我们的评估策略分为两部分:第一是验证模型在从未见过的 DNA 序列上的预测精度;第二,也是更具临床意义的,是变异效应预测。即通过对比有突变和无突变的两个序列,看模型能否重现下游的分子变化。虽然原理简单,但技术上,11GB 的模型输出让评分变得极其缓慢。
Tom:没错。为了解决“评分慢”的问题,几位工程师开发了一套变异评分 API,让聚合计算直接在运行模型的同一设备上并行完成。这极大地提升了效率,让我们能进行论文中呈现的大规模评估。
Natasha:我们尽可能全面地对模型进行了基准测试。早期我们面临的问题是如何结构化这种海量任务的评估。我们再次采用了“并行化”策略:每个成员各领一个领域(如一两个模态),独立完成从数据提取到图表生成的全流程。此外,我们也积极吸收了研究社区现有的基准。
Jun:只要条件允许,我们就会进行多层次验证:从分子的实验读数到机体的患病风险。我们特别惊喜地发现,在预测癌症驱动突变方面,模型能非常出色地重现湿实验的结果,将其从随机对照中准确筛选出来。
Dhavi:评估完成后,就到了写论文的阶段。
Natasha:没错,那篇论文长得简直像部小说(笑)。因为它涵盖的范畴实在太广了,我们希望给每个对比模型公正的评价,并深入挖掘每个模态。大家都很兴奋,经常看到一篇新论文或数据集就想往里加。但我认为,这种严谨让论文变得更强大。
Dhavi:从最初的原型到论文发表,整个过程历时多久?
Ziga:不到两年。团队成员曾挤在一间屋里,桌上摆满了显示器一起攻坚。那是段非常令人激动的时光,我为团队能共同发布这个模型和 API 感到自豪。
Dhavi:在模型接近完工时,我们开始思考如何与社区共享。
Tom:我们对目前这套 API 非常满意。我们希望外部用户能以最简单、最无门槛的方式使用它。现在,你只需打开一个 Notebook(代码笔记本),就能在没有 GPU、无需安装复杂驱动的情况下进行预测并可视化结果。这种易用性非常强大。
Dhavi:Jun,你对这个工具的应用最期待什么?
Jun:两点。第一,作为工具帮助科学家精准定位有害突变;第二,作为理解基础生物学的利器。希望它能帮助科学家高效利用有限的资源和经费,加速科研进程。
Dhavi:Ziga 和 Natasha,社区目前有哪些反馈?
Natasha:请求非常多。有人问能否做多碱基变异(如插入、缺失或大结构变异)。其实针对小型插入缺失(Indel)的功能我们已经做了,只是在文档中不够突出。
Ziga:还有人想要模型嵌入(Embeddings)或进行私有数据微调。在数据方面,很多人希望支持更多物种(目前仅限人与小鼠)、更多细胞类型。这些需求对我们未来的迭代方向至关重要。
Dhavi:大家最关心的问题,下一步是什么?
Jun:由于 API 会输出成千上万个原始评分,这超出了人类的直观阅读能力。我们正研究如何将这些评分总结为每个变异一个单一评分,帮助科学家优先筛选出最值得深入研究的变异。
Tom:我们还计划支持全基因组关联分析(GWAS)等超大规模研究。目前我们正考虑预计算尽可能多的变异数据,方便用户直接调用。
Natasha:我们还会发布模型权重!非常期待看到社区会用它进行怎样的创新。
Ziga:回到团队使命,我最期待的是利用最新的单细胞图谱(Single Cell Atlases)。技术进步让我们能不仅在组织层面,而是在组织内的个体细胞类型层面进行测量。如果将这些融入模型,我们将能更深入地研究与特定细胞类型病变相关的疾病。
参考链接:
1.https://www.youtube.com/watch?v=V8lhUqKqzUc
2.Avsec, Ž., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026). https://doi.org/10.1038/s41586-025-10014-0
3.http://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/
文章来自于“DeepTech深科技”,作者 “落花”。