ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成
5055点击    2024-04-24 17:18

AI,能够重写人类基因组了?


就在刚刚,初创公司Profluent宣布,完全由AI设计的基因编辑器,已经成功编辑了人类细胞中的DNA。


也就是说,世界上首个使用AI从头设计的分子级精确基因编辑器诞生了。



就像ChatGPT能生成诗歌一样,Profluent这个全新的AI系统,可以让我们编辑自己DNA的微观机制生成蓝图。


在迄今最广泛的基于CRISPR的基因编辑系统数据集上,研究者训练了LLM。这些LLM产生的蛋白质,将几乎所有天然存在的CRISPR-Cas家族的多样性,扩大了4.8倍!


并且,基因编辑器在人类细胞中显示出了与SpCas9(一个示例基因编辑器)相当或更好的活性和特异性,同时距离超过400个突变。


这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。


而且,公司还决定,会在OpenCRISPR协议下,自由释放这些DNA分子。



Profluent联创Ali Madani表示,「尝试用AI设计的生物系统,编辑人类DNA是一次科学登月之旅」。


「我们的成功表明,在未来,AI可精准设计出一系列定制的疾病治疗方案」。


有网友表示,「是时候重新编程人类了吗?AI驱动的CRISPR技术进步,正挑战着基因伦理的边界」。



如果你可以改变自己的DNA,你会这么做吗?




贫血、失明疾病的基因,由我们自己修改


初创公司Profluent在刚刚发表的这篇论文中,详细描述了这项技术。



论文预计将于下月,在美国基因与细胞治疗学会年会上发表。


这项技术和驱动ChatGPT的方法是一样的,它在分析大量生物数据后,创造了新的基因编辑器,包括科学家已经用于编辑人类DNA的微观机制。


这些基因编辑器基于的是诺奖的获奖方法,涉及一种名叫CRISPR的生物机制。



基于CRISPR的技术诞生后,即在业界引起轰动。它改变了科学家研究疾病的方式。


在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR技术可以直接让我们修改导致这些疾病的基因了!



CRISPR方法使用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。


加州大学旧金山分校生物工程和治疗科学系教授兼系主任James Fraser介绍说,这些生物材料从未在地球上存在过,而Profluent的AI系统,正是从大自然中学习如何创造这些全新的东西。


如果这些技术继续发展,所产生的基因编辑器,或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。


现在,Profluent表示正在开源OpenCRISPR-1编辑器,这也就意味着,个人、学术实验室和公司都能免费使用这些技术。


AI界常见的开源,可以加速新技术的产生。不过,对于生物实验室和制药公司来说,像OpenCRISPR-1这样的开源并不常见。



AI编辑蛋白质,为何意义重大


目前,蛋白质工程界想要复制功能性蛋白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。


许多对人类有重大意义的蛋白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的Cas9和经常造成食物中毒的肉毒杆菌毒素。


大型生成蛋白质语言模型的作用,就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计蛋白质。


Cas9蛋白,是CRISPR-Cas9基因编辑系统的核心组成部分,它是一种RNA引导的核酸酶,可以搜索人类基因组中的所有30亿个核苷酸,并在一个特定位点进行切割。



这种核酸酶与单导RNA(sgRNA)复合在一起,sgRNA由一个在结构上与蛋白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。



棘手的是,大多数Cas9蛋白的长度超过1000个氨基酸,整个设计空间包含20^1000种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!



而且,由于这些蛋白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除蛋白质的功能。


如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。


然而,AI系统却能很轻松地探索整个搜索空间,发现功能性的基因编辑器。而且,只需要花几个小时!


全球首个开源基因编辑器,改写人类DNA


基因编辑器OpenCRISPR-1,由一个Cas9样蛋白质,和引导RNA(guide RNA)构成。


正如之前所述,它是完全由Profluent的AI大模型开发的。


在具体实现过程中,研究人员对26TB组装的「基因组」和「元基因组」数据库系统进行挖掘,整理出超100万个CRISPR操纵子(operon)的数据集。


通过训练OpenCRISPR,AI从大规模序列和生物背景中学习,生成了自然界不存在的数百万种CRISPR样蛋白。



研究人员称,AI生成了自然界中已发现的「CRISPR-Cas家族」的4.8倍的蛋白质集群,完全实现了指数级扩展!


而且,语言模型还为类Cas9效应蛋白定制了单引导RNA序列。


与原型基因编辑效应器SpCas9相比,几个生成的基因编辑器显示出,可比或改进的活性和特异性,同时在序列上相差400个突变。


最后,研究人员还证明了AI生成的基因编辑OpenCRISPR-1与碱基编辑的兼容性。


这项研究中的关键结果,具体如下。


AI生成4.8倍「CRISPR-Cas」蛋白质宇宙


生成蛋白质语言模型通常是在,大型涵盖多种系统发育和功能的天然蛋白序列的数据集上,进行预训练 。


这些模型能够生成,反映天然蛋白质分布和特性的真实蛋白质序列。


然而,对于特定的应用,例如新型基因编辑器的生成,有必要将生成过程导向特定的感兴趣的蛋白家族子集。



对此,研究人员进行了详尽的数据挖掘来构建数据库。


他们搜索了26.2TB的组装微生物基因组和宏基因组,发现了1,246,163个CRISPR-Cas操纵子。



与CRISPRCasDB和CasPDB等精选数据库,以及世界上最大的蛋白质资源UniProt相比,最新创建的数据库显示出更大的多样性。


通过总结共性,研究人员发现了所有CRISPR-Cas蛋白的单一模型,能够生成跨家族的不同序列。


为了生成新型CRISPR-Cas蛋白,作者在CRISPR-Cas Atlas上微调了基于ProGen2的语言模型,由此平衡了蛋白家族的表示和序列簇大小。


从这个模型中,研究者生成了400万个序列。


其中一半是直接从模型生成的,另一半是由天然蛋白质N或C末端的最多50个残基提示,以引导向特定蛋白的生成。


为了评估其新颖性和多样性,作者使用MMseqs2对每个家族的生成序列和天然序列按70%的同一性进行了聚类。


结果发现,与CRISPR-Cas图谱中的天然蛋白相比,生成序列实现了4.8倍的多样性扩展。


对于天然蛋白质很少的家族,比如Cas13和Cas12a,生成序列的多样性分别增加了8.4倍和6.2倍。


另外,只需要极少的上下文,即提供50个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。



100万个类Cas9蛋白全部生成


虽然许多CRISPR-Cas蛋白已被用于基因组编辑 ,但Cas9仍是应用最广泛的一种。


为了生成类Cas9的新序列,研究人员从CRISPR-Cas图谱中采样,Cas9的N端或C端50个残基,对CRISPR-Cas模型进行了提示。


这里,作者使用了CRISPR-Cas Atlas中238917条Cas9序列,对另一个语言模型进行了微调。


这一模型生成可行的类Cas9序列的速度是CRISPR-Cas模型的2倍(54.2%),而且需要任何提示。



为了探索II型效应器的潜在序列分布,研究人员使用Cas9模型生成了100万个Cas9蛋白。


生成的可存活代(n=542,042)与同一性为40%的天然Cas9聚类在一起,并用作构建最大似然系统发育树的输入(图2a)。


引人注目的是,生成的蛋白质主导了系统发育的格局,占系统发育总多样性的94.1%。


与整个CRISPR-Cas图谱相比,多样性增加了10.3倍(图2b)。


新的系统发生群分布在整个树中,这表明该模型捕捉到了Cas9的全部多样性,并没有过度拟合任何特定系。


生成的序列与CRISPR-Cas图谱的差异很大,与任何自然序列的平均同一性只有56.8%(图2c)。


总体而言,生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配,皮尔逊相关性为0.97(图2d)。


此外,图2e显示了,天然Cas9、祖先序列重建和48个生成蛋白的靶上和脱靶的编辑效率。图2f展示了自然Cas9、祖先序列重建,以及生成蛋白在靶向编辑效率和特异性方面的对比。



生成的基因编辑器,在人类细胞中发挥作用


然后,研究者进一步将关注范围缩小到CRISPR-Cas9系统,并在CRISPR-Cas图谱中的238,917个Cas9蛋白上,训练了蛋白质语言模型。


使用这些模型,研究者生成了可与SpCas9互操作的Cas9样蛋白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的sgRNA相容,因此,它们可用于相同的应用。


研究者选择了其中48个生成的序列,用于在人类细胞中进行严格的功能表征。


最热门的OpenCRISPR-1,在靶向位点的活性与SpCas9相当(OpenCRISPR-1的编辑率为55.7%,SpCas9的编辑率为48.3%),但令人惊讶的是,在脱靶位点的编辑减少了95%(OpenCRISPR-1的编辑率为0.32%,SpCas9为6.1%)。


此外,作为一种非常新的蛋白质,OpenCRISPR-1与SpCas9相距403个突变,与 CRISPR-Cas图谱中的任何天然蛋白质相距182个突变。



研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1和SpCas9在精确编辑靶基因组中的单个碱基时,具有相似的活性和特异性。


他们还能保持碱基编辑活性,同时通过用由另一种Profluent训练的蛋白质语言模型生成的脱氨酶,来提高特异性。



最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的Cas9样蛋白生成相容的sgRNA。


与SpCas9的sgRNA相比,这些生成的sgRNA可以提高所测试的五种蛋白质中四种产生的核酸酶的活性。



AI,正在改善医疗保健


现在,全世界都有很多项目,在用AI技术改善医疗保健。


比如,华盛顿大学的科学家们正在用ChatGPT和Midjourney背后的方法来,创造全新的蛋白质,并且正在努力加速新疫苗和药物的开发。



如今大火的许多生成式AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。


比如,Midjourney以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,系统就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。



Profluent的技术,也是由一个类似的AI模型驱动的。


这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编辑基因的微观生物学机制。


本质而言,它就是分析了从自然界中提取的CRISPR基因编辑器的行为,学习了如何生成全新的基因编辑器。


Profluent的CEO Ali Madani介绍道,这些AI模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。



人类编辑基因,还会有多远


目前,Profluent尚未对这些合成基因编辑器进行临床试验,因此尚不清楚它们是否能与CRISPR的性能相媲美,甚至超过CRISPR。


但他们的研究表明了,AI模型可以产生能够编辑人类基因组的东西。


尽管如此,这项成果还不太可能在短期内影响医疗保健。



UC伯克利创新基因组学研究所的基因编辑先驱兼科学主任费Fyodor Urnov表示,科学家们并不缺乏天然存在的基因编辑器,用来对抗疾病。


真正的瓶颈在于,这项编辑器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。


但是,随着学习越来越多的数据,生成式AI系统的潜力不可小觑。


如果Profluent的技术继续改进,终有一天,科学家们可以用更精确的方式编辑基因。


到那时,我们可能身处这样一个世界——许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。


「我梦想着这样一个世界,我们可以在几周内按需提供CRISPR,」 Urnov博士说。



还有一个重大的问题就是,CRIPSR有风险吗?


长期以来,科学家们一直在警告:不要使用CRISPR进行人类增强!


因为,这是一项相对较新的技术,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。


合成基因编辑器,也面临着这项问题。而如今,科学家们已经掌握了编辑胚胎所需的一切技术。


但Fraser博士表示,如果真的有人想用它们做坏事,也只会使用现有的东西,而非AI创建的编辑器。


文章来自微信公众号“新智元”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner