ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
上科大团队带来“双子座”模型,AI筛选药物如何实现“集百家之长”?| 上海国际计算生物学创新大赛
8486点击    2024-09-09 21:51

基于已有配体来开发新分子,


药效会更好吗?


GeminiMol由上科大白芳课题组2024届博士毕业生、现苏州系统医学研究所博士后王林博士在导师的指导下开发完成,该模型基于分子间构象空间相似性对比学习来进行训练,能够表征药物小分子的构象空间特征,全面反应与分子结构相关的分子属性、潜在药效性质等,进而在包括基于配体的虚拟筛选、靶标鉴定、分子属性预测等多种药物发现任务上表现出均衡的优良性能。近日,该模型相关论文“Conformational Space Profiling Enhances Generic Molecular Representation for AI-powered Ligand-based Drug Discovery”已发布于国际期刊Advanced Science杂志。



“构象空间是我们GeminiMol的一大亮点。”王林向记者介绍道,一个小分子在溶液里会有动态、灵活的三维构象变化,而药物分子在不同靶标上发挥药效时也可能是多种不同的三维构象,“我们在训练模型的时候就考虑到了这种动态构象变化,从而使得我们的模型能够更好捕捉到分子的动态性质。”也正因为构象空间的引入,该模型能够识别2D结构不相似,但3D构象相似的潜在活性分子,有助于发现具有新颖结构的先导化合物。



据透露,这也是首次在AI模型中大规模采用小分子的构象空间信息进行训练,“在初期,团队花费了大量时间进行构象采样,但模型训练完成后,构象空间信息已被充分映射并隐含在模型中。因此,在后续的高通量筛选中,计算速度非常快。以本次比赛为例,1800万个化合物分子,我们的模型仅仅用了不到1个小时的时间就完成了筛选评价。”


除了创新性地引入构象空间信息外,GeminiMol还采用了基于分子间相似性的对比学习策略,显著提高了分子表征的预训练效率。这使得模型能够在一个小型分子集上进行训练,并在涉及数百万个分子的zero-shot任务和QSAR任务中实现广泛推广,同时在性能上优于现有的公开药物筛选方法。



一方面,一个初始的“苗头分子”本身也需要进行改造,“我们不能确保比原有的更好,但是它能有相当的活性,从药物研发角度来讲,我们也是要在苗头分子有一定的活性的基础下,再进行多轮的优化和改造,才可以向真正的药物去推广。”


而另一方面,AI大模型在筛选过程中可以“集百家之长”。“我们实际上做的时候,不是只基于一个分子来参考的,可能同时借鉴了活性均较佳的两三个结构不同的分子,那么在这种情况下,很可能我们得到的新分子就能兼具两个活性分子的药效特征或者结构信息,依次类推,如有更多的先验活性分子,我们可能会有更多样化的候选分子。”


2


计算生物学,


合作与交叉同样重要


GeminiMol团队成员5人均为白芳课题组研究生。他们的专业教育背景、研究方向各不相同:基于AI的分子性质建模,分子动力学,蛋白互作抑制剂设计……在他们的导师、上海科技大学生命科学与技术学院/免疫化学研究所研究员白芳看来,其实团队中的五位同学,都具有各自独当一面的能力,而这也正是要让他们以团队形式参赛的原因。


“我们团队成员的背景多样,有药学、生物学以及计算机科学的。除了每个人需要掌握跨学科的知识外,在计算生物学领域,合作其实是非常重要的。通过扬长避短,密切合作,我们能够取得更好的成果。”团队成员周泳锜这样说道。


事实上,团队成员在比赛期间的项目操作过程中,也遇到了一些客观的困难。“主办方提供了大规模的化合物数据库,我们在计算分子相似性前,需要先提取分子的GeminiMol特征。在这一过程中,面临了计算资源紧张的问题,在使用我们自己的计算集群推演过程中,程序几分钟就超负荷崩溃了。”王世航向记者说道,不过团队并没有因此被打倒,而是通过任务切割、并行计算,来优化操作工艺,使得准备工作能够在同等质量下完成。


3


计算生物学不同路线百花齐放


比赛赛题证明模型普适性


本届大赛聚焦药物筛选AI算法,以NMDA(n-methyl-d-aspartate,n-甲基-d-天冬氨酸)受体为靶标的药物虚拟筛选为赛题场景。


“由于机制的复杂性,离子通道一直被认为是药物发现中颇具挑战的一类靶标。我们团队此前在离子通道方面的药物研发上并没有什么经验,”白芳总结道,“不过在这次比赛中,我们的方法在这一极具挑战性的靶标上表现也相当不错,这证明了我们的方法具有很强的普适性”。


当前,计算生物学领域中,各种方法或技术路线正百花齐放。“现在还没有哪种方法是百分之百完美的。很大程度上,采用何种方法取决于它的应用体系本身的特点和背后的科学问题,”白芳向记者介绍道,“根据具体的科学问题,对方法进行重新组装或优化,甚至调整底层算法,这些都是可能的”。


有趣的是,白芳指导的学生中共有三支队伍参赛,并且都顺利通过了初赛,其中两支队伍进入了前五。白芳向记者坦言,这三支队伍的技术路线不同,分别为:纯AI队、AI与物理模型融合队以及物理模型队。其中,GeminiMol团队定位为纯AI队。



“这是一场有趣的实验,我们想要通过这个比赛来探索:当下AI在药物研发中,到底能发挥多大的作用?”白芳解释道,“我们一直强调,药物研发是一个非常复杂的过程,AI不能解决所有问题,传统的CADD(计算机辅助药物设计)也仍然有很重要的价值。”


据透露,GeminiMol团队最终确定6个靶向NAM位点的分子,5个靶向LBD位点的分子,1个靶向TMD位点的分子。最终,2个化合物在初评中表现出活性,其中的一个化合物进入了复审阶段。


对于参赛成果的后续转化,白芳表示,“希望能够进一步与实验验证团队协作,共同推进未来的开发工作。但从药物研发的角度来看,这目前只是一个初步的苗头分子,离真正的药物还有很远的路要走,还需要更多的投入和时间”。



文章来源于“上海科技”,作者“张悦