改写游戏规则!全球首个单细胞空间基础模型Nicheformer开源,1.1亿细胞训练!团队:迈向「虚拟细胞」重要一步

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
改写游戏规则!全球首个单细胞空间基础模型Nicheformer开源,1.1亿细胞训练!团队:迈向「虚拟细胞」重要一步
7456点击    2025-11-04 20:35

细胞生物学模型,又更进一步!


一直以来,科学家手握海量单细胞数据,却始终难以回答一个关键问题:这些细胞,到底在哪儿?

 

单细胞组学告诉我们「有什么细胞」,空间转录组学告诉我们「这些细胞在哪儿」以及「它们的邻居是谁」。

 

但二者长期割裂,让研究人员难以同时捕捉细胞身份与其空间背景。


要知道细胞不是单独存在的,空间转录组能够系统性地回答空间异质性、细胞相互作用、功能区划以及疾病微环境等关键细胞生物学问题。

 

现在,这一壁垒被彻底打破!

 

近期,慕尼黑大学团队推出Nicheformer,全球首个将单细胞分析与空间转录组学融合的大规模基础模型,由超1.1亿个细胞数据训练而来。


这一成果被刊登在Nature子刊Nature Methods上,且团队已经将该模型开源。


改写游戏规则!全球首个单细胞空间基础模型Nicheformer开源,1.1亿细胞训练!团队:迈向「虚拟细胞」重要一步


github地址:https://github.com/theislab/nicheformer


它仅凭解离细胞的基因数据,就能精准推断细胞在原始组织中的位置与邻居,能更好的释放当前单细胞数据的潜力,对细胞微环境等研究有极大的促进作用。

 

更令人振奋的是,这项突破被视为迈向「AI虚拟细胞」的重要一步。


这意味着,一个能整合多模态数据、模拟真实细胞行为与空间关系的数字细胞时代,正加速到来。


让单细胞数据释放潜力

 

一直以来,细胞组学有两大技术路径:

 

单细胞组学:在单个细胞层面上系统测量基因组、转录组、表观基因组、蛋白质组等多维分子信息。


空间转录组学:在保持组织结构信息的前提下,对组织切片或原位细胞进行基因表达测序的技术,能够在组织层面测量基因表达情况。

 

简单来说,单细胞组学告诉科学家有什么细胞,而空间细胞组学在此基础上,还告诉你“这些细胞在哪里”以及“它们的邻居是谁”。

 

而研究人员一直缺乏一种方法来同时研究细胞信息和组织。

 

为此慕尼黑大学的团队开发了Nicheformer,这是第一个将单细胞分析与空间转录组学相结合的大规模基础模型

 

它能做到仅凭分离细胞的基因数据,就推断出它在原始组织中最可能的位置和相邻细胞。


改写游戏规则!全球首个单细胞空间基础模型Nicheformer开源,1.1亿细胞训练!团队:迈向「虚拟细胞」重要一步


图:Nicheformer执行下游任务


为了实现这一目标,研究团队创建了SpatialCorpus-110M,这是迄今为止最大的单细胞和空间数据集之一,包含超过1.1亿个细胞,涵盖了人类和小鼠的73种不同器官和组织。

 

团队使用SpatialCorpus-110M进行预训练。该模型通过引入上下文信息(如技术、物种和实验设计)来学习单细胞和空间基因组学的联合表示。

 

随后,该模型在空间组学数据的空间任务上进行了微调,以解码空间解析的细胞信息。

 

Nicheformer可执行多个下游任务,包括学习单细胞和空间基因组学的联合表示,为非空间的scRNA-seq数据增添空间上下文,凭细胞的基因表达谱准确预测空间上下文等。

 

为了评估Nicheformer的性能,团队设计了一系列新的下游任务,包括空间细胞类型、生态位和区域标签预测,以及邻域细胞密度和组成等。

 

结果显示,实验结果表明,Nicheformer在预测空间组成和标签方面优于现有的基础模型,如Geneformer、scGPT和UCE。


虚拟细胞更近一步

 

团队表示,该研究与最近兴起的「虚拟细胞」有关。

 

Nicheformer模型的核心意义在于,它首次将单细胞分辨率和空间组织背景大规模地结合起来,为构建具有生物学意义的“虚拟细胞”奠定了基础。

 

作者表示:“通过Nicheformer,我们正在迈出第一步,构建通用 AI 模型,这些模型将改变我们研究健康和疾病的方式,并最终指导新疗法的开发。”

 

简单来说,AI虚拟细胞‍是利用人工智能技术结合多模态组学数据,构建的数字细胞,它能模拟、预测细胞行为和反应。

 

虚拟细胞的价值不仅在于技术突破,更在于其可能重构生物医学研究范式。

 

当前,大多数生命活动都是在细胞层面进行的,如果AI能精准模拟分子、细胞和组织的作用,则具有巨大的应用前景。应用领域包括靶点发现、患者分层、药物筛选等。

 

虽然这个概念在生物学和人工智能中越来越受欢迎,但以前的模型在很大程度上将细胞视为孤立的实体,而没有推理它们的空间关系。

 

因此,当前构建的虚拟细胞高度依赖单细胞测序数据集,包括陈-扎克伯格打造的rBio、Tahoe构建的Tahoe-x1等。

 

改写游戏规则!全球首个单细胞空间基础模型Nicheformer开源,1.1亿细胞训练!团队:迈向「虚拟细胞」重要一步


但虚拟细胞的终极目标是尽可能接近生物学真实细胞,仅有单细胞的数据还远远不够。因此,未来虚拟细胞的趋势是整合多模态数据,包括蛋白质组学、表观遗传学、活细胞成像、空间转录组等。

 

团队表示,结合空间转录组数据的单细胞大模型仅仅只是第一步。

 

研究团队接下来的目标就是开发一个能学习细胞间物理关系的「组织基础模型」,该模型还可以学习细胞之间的物理关系。

 

这种模型可以帮助分析肿瘤微环境和体内其他复杂结构,与癌症、糖尿病和慢性炎症等疾病直接相关。

 

未来,随着多模态数据的集成进入虚拟细胞模型,它将变得更加精确和智能,有望彻底改变我们发现生物学规律、开发新药和治疗疾病的方式。


文章来自微信公众号 “ 智药局 ”,作者 王苏


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner