世界上充满了病毒。这些传染性生物体被广泛认为是地球上最丰富的生物实体。但我们对病毒及其在我们世界中所扮演角色的全面理解受到了我们对其惊人多样性知识匮乏的限制。
研究人员现在使用深度学习计算机模型揭示了隐藏在我们世界和基因数据库中的数千种病毒。科学家们构建了一个工具,扫描了从全球各地环境收集的大量基因组数据,并识别出超过160,000种潜在的新RNA病毒种类,其中包括大约70,000种以前从未被识别为潜在新种类的病毒。
尽管大多数RNA病毒不感染人类,但这个群体确实包括了像SARS-CoV-2、流感和埃博拉(如图)这样的著名人类病原体。(iStock / Getty Images Plus)
“这是一项里程碑式的研究——不是因为发现的广度,而是他们发现的深度,”多伦多大学的计算病毒学家Artem Babaian博士在接受Fierce Biotech采访时表示,他没有参与这项研究。“他们专注于这些以前对标准序列比对方法不可见的RNA病毒。”
RNA病毒正如其名,拥有由RNA而非DNA构成的基因组。尽管大多数病毒不感染人类,但这一群体确实包括了像SARS-CoV-2、流感和埃博拉这样的著名人类病原体。RNA病毒无处不在,包括在我们的家中。
“如果你走进你的后院,”悉尼大学的进化生物学家和病毒学家Eddie Holmes博士在接受Fierce采访时说,“你可以取一份土壤样本,如果你对那土壤进行测序,你会发现新病毒。”
但是,对一堆土壤中的所有遗传物质进行测序也会产生大量的所谓“暗物质”:DNA和RNA,它们与任何已知生物体都不密切匹配。Holmes说,这些物质中有很多被怀疑是病毒,部分原因是世界上病毒的数量之多,部分原因是RNA病毒特别是进化迅速。
正如Holmes所说,“RNA本质上容易出错。”虽然DNA有能力纠正错误,但RNA没有;当RNA病毒复制时,其基因组的变化可以迅速累积,随着时间的推移,使病毒看起来不像它的亲戚。
为了找到隐藏在这些“暗物质”中的RNA病毒,由Holmes和中国中山大学病毒学家Mang Shi博士领导的团队利用了所有RNA病毒共有的一点:RNA聚合酶。这是RNA病毒在复制时用来复制它们基因组的蛋白质。由于其重要功能,其结构高度保守,尽管编码它的基因序列可以大不相同。
“我们训练了这种AI方法来识别已知的每一种RNA聚合酶的结构,”Holmes说,他解释说,这个名为LucaProt的程序随后可以筛选新数据,寻找产生看起来像RNA聚合酶的蛋白质的RNA序列。“瞧,它找到了。它找到了很多很多。”
Babaian说:“与其实际上进行预测完整结构的昂贵计算步骤,然后进行涉及一整套不同工具的结构搜索,他们基本上已经深入到了深度学习的深层。”
尽管如此,运行程序还是需要几周的时间,Holmes说,他们与中国科技公司阿里巴巴合作,以确保他们所需的计算能力。
该程序从全球各地测序的51TB数据中筛选,包括温泉、南极土壤、盐沼和堆肥堆。所有数据都存放在由美国国立卫生研究院国家生物技术信息中心(NCBI)维护的公共序列读取存档库中。
“这是一个惊人的宝库,”Holmes说。“NCBI就像科学的亚历山大图书馆。一切都在里面。”
团队测序的161,979种病毒中,有些与其他RNA病毒如此不同,以至于它们可以形成180个新的独立超群。Holmes说,发现一个新的超群类似于发现一个新的动物门——这意味着其中一些病毒彼此之间的差异就像螃蟹和蚯蚓或猫和水母一样。
Holmes、Shi和他们的同事已经使LucaProt公开可用,以便其他研究人员可以使用它来搜索他们自己的数据集中的新RNA病毒。Holmes认为新病毒可能有助于提供新的有用的酶和蛋白质;例如,生活在温泉中的病毒将拥有一种能够承受极端温度的RNA聚合酶。
“它在生化上是如何做到的?”他说。“如果我们能找到RNA如何在那种温度下生存和复制,如果它确实做到了,那将是一种极其迷人的酶。”
对Babaian来说,这些结果和其他类似的结果只是冰山一角。由于所有可用的数据和分析这些数据的计算能力的增加,他说,“我们正处于对我们对病毒组和病毒生物多样性理解的革命性变化之中。”
我们开始了解病毒如何影响我们的健康,即使它们不引起疾病,Babain说,像一种感染人类寄生虫弓形虫的病毒,似乎调节了寄生虫是否引起疾病。
“当你进入深层、黑暗和未知领域时,就是你在医学上取得重大进展的时候,”他说。“你必须了解病毒、我们和我们的环境以及我们周围物种的相互联系。”
文章来源于“细胞基因研究圈”,作者“小编”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda