新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!
5875点击    2025-07-17 12:35

最近,AI霸主英伟达市值突破了4万亿美元,成为全球最重要的股票之一。

同样,黄仁勋造就了一个财富奇迹,从不善言辞的工程师,到财富超越巴菲特老爷子。

谁能成为AI时代的黄仁勋?

不过,老黄明确表示:人人都必须学会计算机的时代过去了,人类生物学才是未来。

新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


在他看来,未来生命科学会像传统行业(比如汽车和软件)那样高度工程化,走向理性设计时代。


“我相信,我们将实现计算机辅助药物设计。因为我们现在能够表示基因、蛋白质,甚至是细胞,几乎可以理解一个细胞的意义了。”

像设计芯片一样从头设计蛋白质?这放到以往可以说是天方夜谭,但现在已经从科幻走进现实。

今天,英伟达联合加拿大魁北克人工智能研究所Mila,推出了一款全新AI+蛋白质基础生成模型La-Proteina ,能够生成全原子级别的蛋白质结构和序列!

新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


这是蛋白质设计领域的重大突破。

La-Proteina能够高精度生成多达800个残基的蛋白质,而大多数现有模型在处理如此长的蛋白质时会失败,甚至直接宕机。


新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


这一功能,这对于蛋白质工程和药物设计具有重要意义。例如,在酶设计中,可以精确地设计活性位点的结构,从而提高酶的催化效率。

在英伟达的加持下,模型的计算效率也大大提高,单A100 GPU生成800残基蛋白仅需13.5秒

这也意味着,AI蛋白质从头生成领域走向成熟,能够快速产生更完整,更有生物物理学意义的蛋白质。


生物分子正在进入设计时代。

01

蛋白质从头生成,新突破

从头生成蛋白质,并不是一个全新的概念。

尽管AI近两年在蛋白质生成上面进展迅速,但在设计精度上仍然不足。

之前的成果中,已经能够成功解决高质量的蛋白质骨架设计问题,但完全原子结构的生成带来了新的挑战。

这也意味着设计者必须从零开始构建蛋白质的结构和序列,并且在氨基酸维度进行建模,任务难度较高。

而La-Proteina的核心创新在于其“部分潜在蛋白质表示”和“流匹配"框架。

该框架专为联合生成蛋白质序列和全原子结构而设计,有效地将显式骨架建模与固定大小的残基潜在表示相结合,实现高效快速采样,以捕获序列和原子侧链。


新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


图:La-Proteina的模型结构

这种方法解决了蛋白质生成中的一个关键挑战:显式侧链表示的维度可变性。

该模型在长链上实现了超过75%的共设计性,远超基线模型的两倍。


共设计性这一指标至关重要,因为它表明了生成结构与其相应序列保持稳定和可折叠的可能性。此外,该模型生成了更多样化的新型蛋白质结构,增加了发现新功能候选分子的机会。

此外,La-Proteina能够一次生成长达800个残基的共设计蛋白质。


新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


图:La-Proteina 可以生成多达 800 个残基的多样化的蛋白质骨架


此前,在这一长度范围内,大多数模型因计算限制和内存限制而程序崩溃,无法生成有效样本。

而能够生成长达800个残基的蛋白质,不仅仅是增量改进,而是一个质的飞跃,它使得设计以前生成式人工智能无法触及的复杂、生物学相关蛋白质成为可能。

人类的平均蛋白质长度为510个残基,但许多功能性蛋白质,特别是治疗性抗体或酶,都是大型分子。

La-Proteina的800个氨基酸的生成能力意味着,它能够设计出远超人类平均蛋白质大小的蛋白质,甚至包括大型且复杂的蛋白质。

这直接解决了先前模型在处理此类长度时,因为模型直接崩溃,而无法生成样本的限制。这意味着可设计蛋白质类型的显著扩展,为复杂的生物工程开辟了新途径。

而为了验证分子的有效性,研究团队还评估了 La-Proteina 生成结构的生物物理质量,包括评估键角等物理指标。结果表明,La-Proteina 产生更高质量的结构,得分明显优于所有基线。


新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


图:La-Proteina的蛋白质结构效度


也就是说,La-Proteina生成的分子接近于真实物理世界的蛋白质!

更值得一提的是,在英伟达强大的算力和工程能力支持下,单A100 GPU生成800残基蛋白仅需 13.5秒!这将极大地加快产业应用度。


新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


图:单个A100GPU上的计算速度


该模型代码即将开源,目前预印本论文已经上线arXiv,涵盖了各种细节技术进行业,期待行业的复现与改进。


项目页面:


https://research.nvidia.com/labs/genair/la-proteina/#samples


预印本:


https://arxiv.org/abs/2507.09466

02

英伟达的AI生命科学野心

如今,英伟达已经成为AI+生命科学领域的关键推动者。

英伟达表示,医疗保健业务在2026财年ARR将超10亿美元,未来,医疗保健和生命科学领域存在超1000亿美元的AI计算机会。

为此,英伟达正在AI+生命科学的投入不断加大,通过基础模型、计算平台、投资合作成为生态的建构者。

此前,Arc Institute联合斯坦福大学发布了全球最大开源AI 生物学模型Evo2,高达400亿参数,能够执行跨 DNA、RNA 和蛋白质的通用预测和设计任务。

Evo2震惊了整个学界,背后就有英伟达的大手笔赞助。

Evo2在英伟达DGX Cloud AI 平台上训练,使用了2000多张H100 GPU,最终使得Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,一次推理的核苷酸数量是 Evo 1 的 8 倍以上。

2022年,英伟达发布生命科学服务平台BioNeMo,将目光瞄准了生命科学领域。

BioNeMo打包了以下模型:蛋白质结构预测(AlphaFold2、ESMFold 和 OpenFold)、蛋白质生成(ProtGPT2)、蛋白质嵌入生成(ESM-1nv、ESM-2)、分子生成(MegaMolBART、MoFlow)和分子对接(DiffDock),并且可以部署英伟达DGX云服务中。


如今,BioNeMo平台不仅支持生物分子模型的训练和部署,还集成了NVIDIA NIM微服务和BioNeMo Blueprints,优化了从模型开发到推理部署的整个流程,显著缩短了药物研发时间并降低了成本。

不仅如此,不差钱的英伟达正在全球搜寻具有成长潜力的AI+生物制药公司,以培养新兴制药公司对于算力的需求。

据智药局不完全统计,英伟达已经投资了13家AI制药公司,涵盖小分子药物、蛋白质、单细胞、疾病研究等多个领域。

新里程碑!英伟达祭出AI生物模型La-Proteina,解决蛋白质设计最难问题!


在英伟达的支持下,随着行业技术的不断突破,我们将迎来生命科学的设计与工程化时代。


文章来自于微信公众号“智药局”,作者是“王苏”。


关键词: AI新闻 , AI生物 , La-Proteina , Mila
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda