诺奖都认可的AI蛋白质预测赛道,再添新玩家
专攻蛋白质结构预测,AI创企与谷歌DeepMind同台竞争。
今天,AI生物医药创企Basecamp Research 宣布获6000万美元B轮融资 ,由Singular领投,其他投资者包括S32、redalpine、True Ventures和Hummingbird Ventures等以及其他多位知名投资人。
与刚刚拿下诺贝尔化学奖的谷歌DeepMind相似,Basecamp Research同样借助AI大模型发现新型蛋白质结构,并帮助创造新药。据Basecamp Research称,在准确预测大型复杂蛋白质结构和小分子相互作用方面, 其基础模型 BaseFold 的表现优于AlphaFold 2 。
同时,Basecamp Research还在打造最大的天然生物多样性图谱数据库,其中包含超过60亿个基因、基因组以及其他生物学相关数据之间的关系。
Basecamp Research还打造了企业级AI代理,它不仅可以回答与生物学和自然界生物多样性相关的任何问题,还可以产生人类无法独自获得的新见解。
Basecamp Research 官网
该公司计划利用这笔资金推动更多与其他生物医学和研究组织的合作,也收集更多数据来扩展其模型。前谷歌 Verily Life Sciences首席执行官Andy Conrad认为,Basecamp Research 的平台可以“解决生物制药行业甚至不知道要问的问题”。
Basecamp Research成立于2019年,总部位于伦敦,联合创始人兼首席执行官Glen Gowers和Oliver Vince都是生物学博士,在牛津大学读本科时相识。公司名Basecamp Research为了纪念两人共同在冰盖上生活过的时光。“我们率先建立了第一个移动 DNA 测序实验室。”Vince说道。
Basecamp Research联合创始人
尽管AlphaFold2展现了AI 在生物技术领域的应用强大潜力,但Basecamp Research认为AlphaFold2大量借鉴公共MGnify数据库,该数据库以序列不完整而闻名,这可能会影响较大蛋白质结构预测的质量。
“Basecamp Research的BaseFold解决了下一个重大计算挑战,即为更大、更复杂的蛋白质实现晶体学级别的精度,尤其是那些在现有蛋白质序列数据库中代表性不足的蛋白质。”Gowers提到。
BaseFold是通过用BaseGraph增强AlphaFold2模型而创建的,该模型可以根据蛋白质的氨基酸序列预测其3D结构。BaseGraph是专门为生物 AI 构建的基础数据集,通过与25多个国家建立访问和利益共享伙伴关系收集相关数据。
从0构造的深度学习模型BaseFold利用Basecamp Research专门构建的基础数据集,显著提高大型复杂蛋白质结构和小分子相互作用的预测准确性—— 其准确度比AlphaFold2高出六倍,小分子对接准确度提高了三倍。
此外,Basecamp Research将与英伟达合作,为英伟达旗下的AI医药平台BioNeMo平台提供优化。
Gowers博士补充道:“我们知道,在人工智能领域,最好的数据会产生最好的结果,我们构建的全新专用基础数据集已经对药物开发和人类健康产生了广泛的影响。”
如今,人们在训练生物学模型方向存在巨大的数据缺口。世界上一些顶级制药公司正在训练的模型对自然界了解不够多。
尽管人类在生物学上的探究从未停止,拥有大量的书籍、研究以及相当规模的数据库,但这些数据大多已经过时、结构不合理且前后不一致。“人类可能只获取了1%左右的世界生物多样性信息,这也意味着我们人类目前甚至没有能力提出正确的问题。”Gowers说。
因此,Basecamp Research选择从零开始收集第一手原始数据,并构建相应的模型,期待能够打造一种能够比人类更好地洞察生物学的AI。
Basecamp Research官网展现数据库的成长
Basecamp Research的研究人员走遍世界各地收集数据,并将其与AI程序相结合, 更高效地为生物界构建“ChatGPT” 。它不仅可以回答与生物学和自然界有关生物多样性的任何问题,还可以产生人类无法看到的新见解。
相较于ChatGPT理解程序语言或自然语言,Basecamp Research则是希望“生物界GPT”能够理解DNA语言、生物语言。Gowers认为如果给予AI足够的数据,语言模型能够发挥出超乎寻常的作用。
Basecamp Research迄今已与25个国家的100多家组织达成合作,以扩大其数据库,提供一手资料,约有15家正在使用其AI帮助开发新产品。
宝洁公司正在利用这些模型设计洗涤剂中的酶,以便在低温下清除污渍。英国生物基染料制造商Colorifix正借助该模型研究更具可持续性的新型织物染料配方。
该公司还与大型生物医学研究中心Broad Institute的合作。目前,Broad Institute实验室正在研究用于制造基因药物的“新型融合蛋白和其他大分子”,他们正在使用Basecamp Research的数据集来开发这些药物。
Gowers表示,Basecamp Research在B2B基础上开展业务的机会更多,而不会将像OpenAI将资源投入到开发一款与公众互动的产品上。
Basecamp还将与Howard Hughes医学研究所研究员David R. Liu博士以及Liu实验室合作,创造“可编程基因药物”的新方法,通过开发新方法来发现融合蛋白和其他大分子物质,以生产下一代药物,从而进一步研究疾病治疗方法。
文章来自于“硅兔君”,作者“Xuushan”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda