近日,成立仅 6 个月的 AI 生物技术初创公司 Chai Discovery,发布用于分子结构预测的新型多模态基础模型 Chai-1,并附带了一份技术报告,比较了 Chai-1 与 AlphaFold 等模型的性能。
Chai-1 可以统一预测蛋白质、小分子、DNA、RNA、共价修饰等,在与药物发现相关的各种任务中都达到 SOTA。
公司联合创始人兼 CEO Joshua Meier 表示,Chai 的模型在测试的基准上表现更佳,成功率提升 10% 到 20%。
他说:「例如,与 AlphaFold 相比,我们的模型在药物研发中的关键任务上始终表现更好。」
而且,可通过 Web 界面免费使用 Chai-1,还可用于药物发现等商业应用。该团队还将模型权重和推理代码作为软件库发布,供非商业使用。
视频:操作示例。(来源:Chai Discovery)
试用网址:https://lab.chaidiscovery.com/
了解生物分子的三维结构对于研究它们如何发挥作用和相互作用至关重要。反过来,这种理解是设计针对生命细胞机制的治疗分子的基础。
过去几年,使用深度学习方法预测蛋白质和核酸的折叠结构取得了重大进展。RoseTTAFold All-Atom 和 AlphaFold3 等方法引入了可以预测各种蛋白质和核酸结构、其共价修饰以及小分子配体与这些复合物相互作用的模型。
Chai-1 是一种用于预测分子结构的多模态基础模型,可以完成与药物发现相关的各种任务。该模型遵循 Abramson 等人的架构并进行了一些关键添加,包括语言模型嵌入和约束特征等。
虽然 Chai-1 旨在直接从原始序列和化学输入预测生物聚合物结构,但它也可以选择性地通过实验约束来提示,例如表位图谱或交联质谱实验所提供的约束,从而实现对困难结合复合物的更准确预测。
图示:Chai-1 模型架构和输入特性概述。(来源:Chai Discovery)
Chai Discovery 研究人员在大量基准测试中测试了 Chai-1。
图示:基准测试。(来源:Chai Discovery)
研究人员在 PoseBusters 基准集上评估 Chai-1,该基准集测量蛋白质-配体相互作用。结果显示,仅给定蛋白质序列和配体的化学组成,Chai-1 的配体 RMSD 成功率达到 77%,与 AlphaFold3 的 76% 相当。在 CASP15 蛋白质单体结构预测集上的 Cα LDDT 为 0.849(而 ESM3-98B 为 0.801)。
为了评估 Chai-1 的提示和条件能力,研究人员还对对接任务进行了评估。指定蛋白质的 apo 结构可将成功率提高到 81%。
该团队发现,蛋白质的全息结构可能会泄露使任务更容易的构象信息,因此他们主要将此任务视为评估模型的快速跟踪能力的一种方式。
研究人员在低同源性评估集上评估 Chai-1 对蛋白质多聚体的预测性能,发现其性能优于 AlphaFold Multimer 2.3(AF2.3),在单序列模式下也有较好表现,尤其在抗体 - 蛋白质界面预测中表现出色。
图示:对评估集界面上模型预测的置信度分数与真实结构进行评估。(来源:Chai Discovery)
蛋白单体预测方面,研究人员将 Chai-1 与 AF2.3 比较,发现 Chai - 1 在有完整 MSA 信息时优于 AF2.3,在无 MSA 信息时表现略差。
核酸结构预测方面,不依赖核酸 MSA 时,使用界面 Cα-LDDT 评估, Chai-1 在这些复合物上的表现与 RosettaFold2NA 相似。
同时,还使用 9 个 CASP15 RNA 靶标测量 C1′ 原子上的 LDDT,评估了其在 RNA 结构上的表现。同样,Chai-1 与 RoseTTAFold2NA 产生了类似的结果。
图示:Chai-1 在核酸复合物预测上的表现。(来源:Chai Discovery)
尽管 Chai-1 经过训练并且无需 MSA 即可对核酸序列进行推理,而 RoseTTAFold2NA 可以完全访问此类进化信息,但仍然取得了不错的结果。研究人员表示,未来的研究结合核酸 MSA 或核酸语言模型嵌入,可以提高其在对这些复合物进行建模时的准确性。
除了直接从序列进行前沿建模的能力外,Chai-1 还可以使用新数据(例如来自实验室的限制)进行提示,从而将性能提高 double-digit 百分点。
研究人员在技术报告中探讨了许多这样的能力,例如表位调节 - 即使使用少量接触或口袋残基(可能来自实验室实验)也可以使抗体-抗原结构预测准确度翻倍,从而使使用 AI 进行抗体工程变得更加可行。
图示:来自低同源性评估集的抗体-抗原界面的 DockQ 成功率;针对 PDB ID 7SYV 的示例预测。(来源:Chai Discovery)
该团队由来自 OpenAI、Meta FAIR 和 Google X 等领先 AI 和生物技术组织的先驱者组成,处于 AI 驱动的生物学研究的前沿。
Chai-1 的发布标志着他们彻底改变分子生物学领域的里程碑。然而,该团队已经在考虑下一代 AI 基础模型。他们的最终目标是建立能够预测和重新编程生化分子之间相互作用的模型。这一愿景可能会改变科学家处理生物研究和工程的方式,从而加速开发新的治疗方法和疗法。
虽然 Chai-1 的发布是一项重大成就,但 Chai Discovery 团队认为这只是一个开始。在接下来的几个月里,他们计划继续改进 Chai-1 并开发新的模型,来突破分子结构预测的极限。
总之,Chai-1 的发布标志着分子结构预测领域的一个里程碑。凭借其 SOTA 性能、多模态功能以及可访问性,Chai-1 有可能彻底改变药物发现和生物工程。
Chai Discovery 是一家成立仅六个月的 AI 医药开发初创公司,它宣布完成了近 3000 万美元的融资,投资方包括知名投资公司 Thrive Capital 和 OpenAI。这笔资金将用于将 AI 技术应用于药物研发过程,以期加速新药的研发。
公司联合创始人兼 CEO Joshua Meier 表示:「我们的目标是让生物学像工程一样可预测,加速药物开发进程。」
图示:Chai Discovery 团队在该公司旧金山办事处。(来源:Chai Discovery)
Chai Discovery 的总部位于旧金山,公司最近完成了种子轮融资,使 Chai 的估值达到了 1.5 亿美元。
在创立 Chai 之前,Meier 曾担任 Absci Corp. 的首席 A I官,还在 Meta 和 OpenAI 担任过研究员。
今年 3 月,他与 Jack Dent 等人共同创立了 Chai。Jack Dent 曾是 Stripe 的一名工程师,目前 Chai 的团队规模不到 10 人,但已经吸引了来自 OpenAI、谷歌和 Meta 等科技巨头的优秀人才。
Chai 联合创始人 Jack Dent 表示,公司免费提供其首个 AI 模型,当前还没有讨论将其技术商业化的计划。
Chai 投资的主导者、Thrive Capital 的合伙人 Miles Grimshaw 表示:「这个领域足够大,可以容纳所有人。在这个领域工作的一个好处是,即使是一点点的进步也是非常有利可图的。」
参考内容:
https://www.chaidiscovery.com/blog/introducing-chai-1
https://www.marktechpost.com/2024/09/10/chai-1-released-by-chai-discovery-team-a-groundbreaking-multi-modal-foundation-model-set-to-transform-drug-discovery-and-biological-engineering-with-revolutionary-molecular-structure-prediction/
https://www.maginative.com/article/chai-discovery-releases-powerful-new-open-ai-model-for-molecular-structure-prediction/
https://x.com/joshim5/status/1833183091776721106
https://wallstreetcn.com/articles/3727491
GitHub:https://github.com/chaidiscovery/chai-lab
技术报告:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf
文章来源“机器之心”,作者“机器之心”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda