36氪独家获悉,近期,生物医药大模型公司「水木分子」累计已完成近亿元人民币融资。其中,天使轮由华山资本领投,道彤投资、讯飞创投参与投资;清智资本参与种子轮融资。募集资金将主要用于生物医药多模态大模型,以及对话式药物研发助手工具ChatDD产品的研发。
水木分子由清华大学智能产业院(AIR)于2023年孵化成立,主要从事生物医药行业基础大模型研究,并开发了对话式药物研发助手工具ChatDD。清华大学国强教授、AIR首席研究员聂再清担任公司首席科学家。
清华大学智能产业研究院院长张亚勤院士表示,AI+生命健康是AIR的核心研究方向之一,已取得系列研究进展,包括蛋白质结构精准预测、AI抗体设计、AI分子设计等。在此基础上,AIR与水木分子的产学研合作将形成更好助力和协同。
在聂再清看来,人机协作式的药物开发助手是未来药品研发的必然趋势。过去数年间,AI技术的应用虽然在药物发现和优化设计上展现出一定的潜力,但也面临训练数据不足、处理模态单一、信息和知识分离等问题。“这一阶段的AI制药误区在于,过分倚重AI的作用,希望算法直接生成出候选分子或药物。但制药过程中,专家的经验和直觉往往是不可替代的,所以最好的方式其实是将二者结合起来。”
而多模态大模型是最有可能实现这一目标的方式,因为相较于传统的AI制药,大模型新增了一个将自然语言和生物编码语言“对齐”的环节。可以理解为,每一个蛋白、分子都是相互存在关联性的知识点,而模型在寻找到知识点间的联系的同时,还能将药物研究人员的经验通过文字提问的方式融合进去,不断“双向激发人和大模型的思考”,从而寻找到更优解。
在这一目标之下,水木分子首先开发了千亿参数的生物医药多模态大模型GhatDD-FM100B。据介绍,在通用语言模型的基础上,GhatDD-FM100B还叠加了生物医药专业知识增强、多模态对齐,以及指令微调和RLHF三层设计,确保其能够“真正理解医药行业”。2023年,该模型进行了C-Eval评测,并在医师资格、基础医学等4项测评中取得超过90分的成绩。
此外,在相关算法技术创新方面,水木分子还开发了LangCell单细胞与文本跨模态大模型、分子与文本的跨模态大模型MV-Mol,以及原子级蛋白质表示学习模型ESM-AA等;2023年,公司相继开源了轻量科研版BioMedGPT-1.6B和BioMedGPT-10B,主要供科研人员学习使用。
目前,基于GhatDD-FM100B底座等现有技术,公司已推出面向医药产业界的产品级应用:对话式药物研发助手ChatDD(Chat Drug Discovery & Design),通过融合理解多模态数据,与专家进行交互式的人机协作,探索药物研发新模式。
对话式药物研发助手ChatDD(示意)
具体到应用上,ChatDD当前聚焦于药物立项、临床前研究和临床试验助手三大场景。以进展较快的药物立项场景为例,这是药物研发、BD的重要起点,但立项报告的撰写往往需要大量且繁琐的信息收集、整理,如靶点市场竞争情况、专利布局。与此同时,由于立项工作难以外包,信息搜集难度也随之提升。
在这一点上,ChatDD的参与能够在一定程度上提高立项效率和质量。目前,公司与复星医药的合作就主要围绕辅助立项决策来进行,重点关注自动情报分析和商业价值评估等场景。“客户内部反馈不错”,聂再清透露称。
另据介绍,临床前研究场景上,大模型解决的主要是新靶点、新治疗方案的发现问题。比如,水木分子已与中医药创新企业博奥晶方达成合作,探索中医药领域疾病与不同靶点、信号通路间的关系。
而临床试验则是药物研发中花费最多、风险最大的环节,也是传统AI技术始终未能攻克的难点。对此,大模型的数据分析能力或许能在提高临床试验成功概率上发挥作用,比如辅助寻找更合适的入组患者。聂再清坦言,这是“非常有意思的场景,正在投入比较大的努力做这件事”,公司已经在和相关临床专家、CRO公司开展合作,不过仍处在相对早期的阶段。
“从市场的反馈中,我感觉无论是传统药企还是Biotech,都对利用大模型参与药物开发具备兴趣,也有一定的付费意愿,我们的订单合作比较符合预期。大模型注定是未来的发展趋势,我相信,生物医药领域的ChatGPT时刻很快会到来。”聂再清表示。
投资人观点:
华山资本创始合伙人及管理合伙人杨镭表示:水木分子团队跨生物医药与人工智能大模型两大科研领域,拥有多位业界顶尖科研专家,并招募了资深产业专家加盟,同时人才储备还在扩充。水木分子的ChatDD对话式生物医药研发助手的发展方向切合未来十年的生物医药产业的需求。未来,ChatDD预计在制药前、中、后阶段发挥作用,助力商业智能与立项、临床前药物发现、临床试验等各环节,具有极强的产品竞争力。
道彤投资创始管理合伙人孙琦表示: ChatDD第四代药物研发范式突破了AIDD,CADD和TMDD的局限,将人类专家知识与大模型知识联结,重新定义了药物研发的模式,为实现高效、精准的药物研发提供了新的可能性。我们对水木分子的未来发展充满信心,也十分期待水木分子团队继续将先进算法应用于蛋白质、DNA、单细胞等生物模态数据的编码解读,长远助力人类进一步打开数据驱动生命科学发现的大门。
讯飞创投董事长徐景明表示:讯飞创投始终秉持产业生态投资的理念,在水木分子的投资上,我们看到了双方在大模型领域的良好协同。水木分子团队的ChatDD产品,是在文本通用大模型的基础上开发的专注于医药研发辅助领域的多模态垂类大模型。医药研发过程中涉及大量专业的研究分析、文档编写等工作,有机会被专业大模型加速,水木分子基于其在医药领域的专业性和AI技术能力,有希望在行业内率先实现对医药研发领域的人力成本节省和研发效率提升。
清智资本及清智孵化器负责人张煜表示:我们一直看好水木分子的定位,并长期持续关注其发展。水木分子已经在相关技术创新、数据积累与产品研发、市场开发上取得了优势、并在关键维度建立行业壁垒。
文章来源于“胡香赟”
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner