
真正的突破在于让模型学会"举一反三",在3-4个突变位点的平衡木上演绎生命的无限可能。
2026年1月9日,“第四届合成生物学及生物制造大会”在深圳光明隆重召开。在“AI生物制造专场”上,华南理工大学生物科学与工程学院院长助理杨晓锋副教授做了题为《AI时代下的蛋白质设计与制造》的主旨演讲。
蛋白质作为生命的物质基础,其工程化改造不仅支撑着生物医药、化妆品等千亿级产业,更是生物制造的核心竞争点。在杨晓锋教授看来,AI for Science(AI4S)的兴起,正在从根本上重塑蛋白质从“序列设计”到“工业智造”的全生命周期。
杨晓锋在报告中深刻阐述了蛋白质工程的“第一性原理”:序列决定结构,结构决定功能。在AI时代,这一经典理论被赋予了全新的数字化内涵。AI4S的本质,是将生物物理法则与海量数据结合,构建可计算的统计模型。然而,杨晓锋敏锐地指出,蛋白质设计并非类似于人脸识别技术的简单迁移。相较于图像识别中维度的相近,AI4S的技术困境在于生物大分子的有限采样数据与近乎无限的序列空间之间存在着巨大的维度鸿沟。这种“维度不匹配”和对生物功能“高度精确”的要求,使得蛋白质AI设计成为了AI4S领域最具挑战性的高峰。
报告的核心看点在于对“外推能力(Extrapolation)”的深入探讨。杨晓锋认为,真正的AI4S不应仅停留于对已知数据分布的“内推”预测,而必须具备跨越稀疏分布、探索认知盲区的能力。通过借鉴大语言模型的逻辑,利用数十亿条天然序列进行无监督预训练,模型得以掌握生命的“语法”,结合少量实验数据的有监督学习,从而实现在从未见过的复杂突变组合中精准推演。这种从“内向归纳”向“外向演绎”的范式转变,正是AI驱动科研发现的核心价值所在。
除了算法层面的攻坚,杨晓锋还展示了AI4S如何向下延伸至“制造”端。他提出了一种极具工程智慧的方案:可切割自聚集标签法。这种设计能够让目标蛋白在表达后自聚集沉淀,与其他蛋白有效分离,从而绕过高昂的工业纯化工艺。更重要的是,这种简化的制造流程为AI研发提供了极高通量的实验反馈,构建起了“设计-制造-测试”的高速闭环。这种数据与实验的量级加速,生动诠释了AI4S如何打破传统研发的效率天花板。
杨晓锋总结道,蛋白质设计正从“偶然发现”跨越到“必然创造”。无论是解析深海未知蛋白,还是定向进化高性能酶,AI4S都将作为底层引擎,推动生物制造走向更加精准、高效的未来。
以下为杨晓锋在“第四届合成生物学及生物制造大会”上的演讲实录,限于篇幅,AI科技评论进行了不修改原意的编辑:

人工智能时代下蛋白质的设计与制造
演讲人:华南理工大学生物科学与工程学院院长助理杨晓峰
非常感谢大会的邀请,让我有机会在这里与大家分享关于蛋白质设计与制造的一些思考。刚刚,张总、李总已经对蛋白质、酶的特性以及人工智能(AI)在其中的应用做了非常精彩的报告,这为我接下来详细探讨人工智能时代下蛋白质的设计与制造奠定了良好的基础。
当我们谈论蛋白质时,从广义上讲,它可以涵盖多肽、酶、抗体等。蛋白质领域有一个非常显著的特点,那就是其巨大的商业价值和产业带动能力。序列与功能之间存在着极其紧密的关联,往往一个独特的多肽序列、一种高效的酶或是一个精准的抗体,就足以支撑起一个百亿美金甚至千亿美金规模的巨大产业。在该领域中,氨基酸序列排列组合产生的可能性是无穷无尽的,可衍生出了无数不同细分的专业领域,这正是蛋白质领域最吸引人、也最具挑战性的魅力所在。
目前,我国在蛋白质及其相关产业方面投入了巨大力量,特别是在广东地区。广东省作为国内化妆品、生物医药产业的大省。这些产品中,很大一部分涉及到多肽和蛋白活性成分,因此如何更好地完成蛋白质的设计与生产,对于支撑地区经济和相关产业链具有举足轻重的作用。今天,我的分享主要围绕两点:第一是“创造”,即如何设计出高性能的蛋白质;第二是“制造”,即如何通过生物制造的手段将设计出的高性能蛋白质生产出来。
在深入技术细节之前,我想先探讨一下这背后的底层逻辑。我们都知道,埃隆·马斯克曾多次强调“第一性原理”(First Principles),这种思维方式颠覆了许多传统观念。例如,在航天领域,传统认知认为火箭必须使用极致轻量化、高强度但非常昂贵的复合材料,但马斯克回归到材料成本与物理性能的最根本逻辑,提出了使用不锈钢制造火箭的可能性,并创建了SpaceX实现了出来。蛋白质科学同样遵循其独特的第一性原理,这便是由Anfinsen提出的著名理论:蛋白质的氨基酸序列决定了其三维结构,而结构进一步决定了其生物学功能。这个逻辑链条意味着,只要我们掌握了一个明确的序列,它在生理条件下理论上对应着唯一确定的结构,即可知其具体的生物学功能。但如果要用传统的计算方法去穷举和模拟这个过程,其计算量巨大到几乎无法实现,但这种序列与结构之间确定的对应关系,为AI算法的介入提供了可能。
在当前的AI时代,蛋白质的研究可以分为两个维度:正向的“预测”与反向的“设计”。预测是指从已知的序列出发,推测其结构与功能;而设计则是根据我们预设的功能或目标结构,去反向寻找能够实现该目标的氨基酸序列。在人工智能大规模应用之前,科学家们主要通过理性设计、从头设计以及定向进化等传统方法来改良蛋白质。然而,随着深度学习技术的横空出世,整个领域发生了范式迁移。
AI在生物学中的应用,很大程度上受益于计算机视觉和图像识别领域的发展。图像识别的逻辑在于通过海量数据训练模型,使模型学习到某种特征分布,进而预测未知物。蛋白质设计同样需要利用已知数据进行训练,但它面临着比图像识别更为严峻的科学挑战。
这就是很多人问的:为什么人脸识别已经可以做到如此精准和高效,而蛋白质的AI设计依然困难重重?其根本原因在于维度的不匹配。因为,AI的核心逻辑是无限地模拟和逼近已有数据的统计分布,如果训练集的质量越高、分布越广,我们预测的可能性就越能聚焦于真实的功能区间。在图像识别中,采集数据与预测目标的数据分布相近,特征空间相对闭合。但在生物学领域,训练集的采样量与我们需要预测的庞大序列空间之间存在着巨大的鸿沟。更重要的一点在于,在设计或生成的任务上,图像生成允许一定程度的“模糊”或“似是而非”,只要看起来像即可;而生物学设计则要求有绝对的“功能性”。一个AI生成的图片,即使细节有误,人们或许仍能辨认出其主体;但一个蛋白质序列,哪怕只有一个关键位点的氨基酸发生错误,其空间构型就可能崩塌,导致功能完全丧失。
事实上,我们可以看到,现有的生成式模型在处理复杂逻辑时仍会表现出局限性。例如,某些AI在生成动物图像时,可能会给蚂蚁画出四只脚,因为它学习到的训练分布中大部分陆生动物都是四只脚。这种错误在图像中或许只是笑谈,但在蛋白质设计中则是致命的。
以蛋白质结构预测为例, AlphaFold系列模型的横空出世,利用深度学习模型实现了蛋白质结构预测的跨越式进展。然而,我们必须清醒地意识到,这类模型本质上仍是基于“见过”的数据进行归纳。前不久,我与南海海洋研究所的同行沟通时发现,AlphaFold对于很多海洋生物的蛋白质结构预测往往会“失效”。总结来讲,AI的强大之处在于它能极度精准地推算训练分布范围内的可能性,但它对于分布之外的新奇生命形式,依然缺乏真正的创造力。这也正是我们在蛋白质设计与制造过程中,需要不断探索和突破的边界。
除了序列空间庞大的问题,在蛋白质设计过程中,我们必须高度关注所谓的“上位效应”( epistasis)。这就像下围棋一样,每一步棋的选择都不是孤立的:你下第一步可能是好棋,第二步看起来也不错,但有可能到了第三步,整个布局可能就崩了,导致最终的失败。在当前的技术背景下,如果我们只是追求局部的步步优化,往往会出现“连步皆好、全局皆输”的窘局。这种现象反映在算法上,就是预测与设计的收敛速度问题。在传统的蛋白质工程中,我们通常采用经典的“爬坡法”进行定向进化,通过不断的突变与筛选试图达到功能的顶峰。然而,这种缓慢的爬坡过程极其容易让研究陷入“局部最优解”的陷阱。当你认为已经找到了最好的序列时,实际上你可能只是被困在了某个低矮的山头,而真正的珠穆朗玛峰可能就在不远处,但由于算法无法突破当前的局部逻辑,你永远无法看到它。
因此,当我们利用AI去介入蛋白质设计时,要从底层架构上设法突破这种局部最优的限制。在具体的蛋白质设计案例中,目前主要存在两种主流的技术范式。一种是理性的直接生成模式,比如刘海燕老师团队的工作,通过建立能量分布模型,连续、广泛地搜索主链结构空间,自动产生“高可设计性”主链,从而生成蛋白。当然,还有David Baker团队利用扩散模型(RFDiffusion)等生成式AI技术。
另一种是以定向进化为基础。针对刚才提到的“爬坡法”陷入局部最优的问题,清华大学的张树一老师团队提出了很有启发性的思路。他们将蛋白质长序列切割成若干个功能片段,并在每个片段上寻找最优的构象与序列组合。这种方法引入了的概念叫:蛋白质序列-功能空间压缩,进行有效的空间压缩与特征重组,避免了整体序列在优化过程中过快地陷入局部最优。
归根结底,AI在蛋白质设计领域的成败,极大地取决于:
(1)数据的质量与多样性。你输入什么样的数据去训练,决定了模型最终的视野。如果你只是盲目地将一批未经清洗或缺乏标注的数据灌入模型,往往无法得到理想的反馈。在AI发展史上,斯坦福大学的李飞飞教授建立的ImageNet数据集,直接推动了人工智能、计算机视觉领域的突飞猛进。ImageNet不仅提供了海量的图像,更重要的是提供了高质量的人工标注。这充分证实了:拿到高质量的、更全面的、具有明确功能标注的生物数据是何等重要。
(2)先进而恰当的模型。目前,我们很多从事生物学研究的人员面临着一个现实的困境,那就是计算资源缺乏。作为一个科研实验室,我们不可能拥有大厂或顶级科技公司那样庞大的算力资源,进行数千亿参数规模的超大规模训练。在这种情况下,我们是应该追求大模型,还是应该追求“恰当的模型”?从目前的文献中可以看到,很多成功的案例往往并没采用超大模型,而是选用了参数规模适中、结构设计精巧的模型,针对特定的科学任务进行深度优化。我们也许不需要为了设计一个蛋白去运行一个上百亿参数的通用模型,而是应该在算力可控的范围内,针对特定的理化特征和功能需求进行精细化建模。
(3)充分考虑外推能力的问题。蛋白质序列的已知空间与其理论上存在的巨大空间相比,分布是极其稀疏的。我们必须思考如何通过创新的算法、框架与路径跳出这种稀疏分布的限制,实现从“内推”到“外推”的跨越,寻找那些处于人类认知盲区但符合生物物理法则的高维功能区。
我们实验室,也开展了AI应用于蛋白质预测与设计的研究。其中,在蛋白质预测上,我们解决的是:如何从海量的宏基因组数据中精准地挖掘出具有特定功能的序列。我们选定的目标是从人体微生物组(Microbiome)数据中寻找具有特定抗菌活性的蛋白,lysin。由此,我们建立了一个融合了序列特征和理化特征的深度学习架构DeepMineLys。这个模型的逻辑在于:首先,有一个覆盖全面,高质量的训练数据集,即是要尽量地扩大训练数据所能覆盖的空间;(2)我们不仅从序列的“语言模式”角度进行语义捕捉,还引入了蛋白质的电荷分布、疏水性等物理化学维度。这种多维度的特征融合,极大地加强了模型对相似序列之间细微功能差别的识别能力。(3)我们采用相似度低于60%的模型没见过的独立测试集要评估,对判断其外推能力。这个模型在我们实验室小型的服务器上就能高效运行,测试结果非常令人振奋:我们挖掘出的一些高活性的溶菌酶,成功率在70%左右,有的甚至比标准的鸡蛋清溶菌酶高出五六倍。目前,我们的研究已经迭代到了第二代模型,其预测精度和功能覆盖率达到了更高的水平。
接下来,我想通过第二个案例来聊聊如何将AI应用于蛋白质的定向进化。对于蛋白质设计,我们课题组目前主要沿着定向进化的路线进行思考,并开发了一套分层训练、迭代进化的模型DeepDE。这个模型的逻辑是:首先在大规模通用数据集上训练获得基础模型,接着将其迁移到蛋白质家族的性能训练上,最后再到目标蛋白突变体的真实数据上。就像对于人脸,先是“全球人群”的训练,再到“中国人群”的训练,最后是针对具体的“深圳人群”。在实际操作中,我们利用大约一千个实验数据点作为最后的有监督学习,这在一般的实验室通量中是比较合理的规模。
为了验证模型是否具备真正的“外推能力”(Extrapolation),我们在训练设计上特意制造了信息差。具体而言,我们只给模型提供包含一个或两个突变位点的数据进行训练,而在测试环节,则要求模型预测三突变的性能。这是一个极具挑战性的任务,因为模型必须在从未见过三点突变组合的情况下,通过逻辑推演给出准确预测。实验结果显示,对于这些从未见过的复杂突变组合,我们的模型的预测相关性达到了0.7左右。在蛋白质荛中,能对这种分布外的数据达到0.7的相关性,已经证明模型具备了超越简单统计模拟的深度理解能力。通过这种迭代,我们仅用了四轮实验,就拿到了性能远超目前所有绿色荧光蛋白亮度的突变体。
这里需要强调的是,我们所追求的“外推能力”是AI驱动蛋白质设计的核心竞争力。现在很多所谓的蛋白质设计仅仅是“内推”,即在已知的分布内寻找最优值,这往往只能得到一些性能略有提升但缺乏突破性的结果。而在探索这些尚未触及的高维空间时,将突变范围控制在3到4个位点之间,可能是目前AI辅助定向进化中一个比较平衡且高效的范围。
当我们完成了蛋白质的设计,下一个挑战便是如何将其制造出来。众所周知,蛋白质的表达与纯化是一个极具挑战性的过程。无论采用大肠杆菌、酵母还是其他细胞体系,在实验室里通过层析柱进行小量纯化是可行的,但在工业化大规模生产中,层析柱的高昂成本和复杂工艺往往成为瓶颈。
基于此,我们从“工程逻辑”角度出发提出了一种新思路。既然蛋白质在某些情况下会自动聚集形成有活性的包涵体,那么我们能否用于蛋白纯化上?由此,我们开发了cSAT技术,让目标蛋白在表达时自组装成聚集体,沉淀出来。随后,我们只需要通过简单的离心,就能获得高纯度的蛋白沉淀,再通过一段可切割的标签将目标蛋白释放出来。这种方法避免了高成本而繁琐的柱层析,极大简化了工艺。
这种制造方式的意义不仅在于降低成本,更在于其与AI研发的完美契合。我们可以将其放入自动化的孔板中进行高通量操作。这意味着AI生成的大量设计序列可以被快速、廉价地转化为实验数据,从而反哺模型,加速蛋白质设计迭代。
总结来说,我们提供的思路涵盖了从新蛋白的挖掘到算法驱动的定向进化,再到工业化标签纯化的完整方案。接下来,无论是产生高质量的数据,还是进行高通量的验证,核心都在于通过AI与自动化实验的深度融合,回到“第一性原理”与“工程逻辑”。
最后,感谢我们团队的努力和相关基金的支持!感谢本次大会,感谢大家!
文章来自于“AI科技评论”,作者 “岑峰”。