摘要
本发明公开了一种基于选择状态空间模型的蛋白质设计方法及系统,属于深度学习和计算生物学领域。本发明先通过随机采样获得蛋白质序列样本,根据预定义的词汇表形成蛋白质序列样本的嵌入表示,通过构建训练样本对获得训练数据集;再将蛋白质序列生成任务视为下一个标记预测任务,利用所述训练数据集对Mamba模型进行训练;最后基于训练后的Mamba模型执行蛋白质序列生成任务或者蛋白质序列突变预测任务。本发明将传统的蛋白质序列设计任务转化为通过Mamba模型进行的序列生成任务,可以有效地捕捉蛋白质序列中的长期依赖关系,提升生成精度。