天工所打造!国内首个生物制造大语言模型,网页版已上线!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
天工所打造!国内首个生物制造大语言模型,网页版已上线!
8028点击    2025-03-24 10:41

天工所打造!国内首个生物制造大语言模型,网页版已上线!


当前,传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战,限制了其在工业化应用中的效率和可扩展性。


近日,中国科学院天津工业生物技术研究所生物设计中心开发了基于大预言模型(LLMs)的SynBioGPT菌种改造专家系统。


SynBioGPT整合了51,777篇文献摘要和23,318篇开放文献,可以用于查询问现、基因突变、产品查询和竞争途径探索。


目前,团队还打造SynBioGPT线上版本,用户注册后就可以体验。


地址:https://synbiogpt.biodesign.ac.cn


天工所打造!国内首个生物制造大语言模型,网页版已上线!


团队还表示,未来大语言模型将会彻底改变代谢建模和工程中的设计-构建-测试-学习 (DBTL) 周期,还将在生物制造中实现自动化实验室。


SynBioGPT


SynBioGPT模由中国科学院天津工业生物技术研究所生物设计中心马红武联合圣路易斯华盛顿大学Yinjie J. Tang研究团队共同发表。


当前,预训练好的模型基座+知识数据库是普遍的解决方式。从合成生物学文献中选择特征,这些特征是设计和预测生物制造性能的影响力因素。


尤其基因组学研究的测序数据(DNA/RNA/蛋白质)对语言模型具有天然的亲和力,非常适合整合进入大语言模型。


于是团队结合检索增强生成(RAG)后,大模型的回答准确性从25%显著提升至85%,其中Qwen1.5和Llama3模型表现尤为突出。为了进一步验证LLMs在生物制造中的应用潜力。


天工所打造!国内首个生物制造大语言模型,网页版已上线!

在合成生物学知识抽提和智能问答任务中的比较


大语言模型前景广阔


赋能DBTL


细胞工厂的开发离不开酶工程、途径设计和发酵优化,而DBTL(设计-构建-测试-学习)循环则是研发关键环节。


大语言模型可以为菌株工程提供有效策略。最近的一项研究证明,LLMs可以通过从超过29,000个条目中提取大规模代谢工程方法来增强DBTL循环,涵盖1210种产品和751种生物体。


另一项研究表明,具有RAG的模型不仅可以为酵母途径工程提供遗传靶点和实验设计,还可以引导新的生物合成途径假设。


天工所打造!国内首个生物制造大语言模型,网页版已上线!

大模型将菌株开发的DBTL过程简化为一个统一且高效的管道


此外,LLMs可以与白盒模型(如基因组规模模型(GSM)和技术经济分析(TEA))集成,这可以扩展其推理能力并助力生物制造的商业决策。


基于AI Agent的自动化实验室


未来大语言模型作为智能代理,将进一步赋能生物制造,减轻研究人员的劳动强度。


具体而言,“AI科学家”是一种新型智能系统,利用大模型协助人类科学家进行大规模分析和重复性DBTL任务执行。


首先,大模型可以通过将复杂任务分解为子推理步骤来协助任务规划。例如,ChemCROW利用“思维链”推理循环将复杂任务分解,并识别与物理世界交互的相关工具。


其次,大模型可用于自动化实验设计和规划。此外,大模型还能支持信息组织、子任务推理、复杂任务工具选择、实验协议准备和数据分析。第三,基于LLM的知识检索器可以与云计算和硬件控制集成,为自动化实验室测试提供更大的灵活性和可扩展性。


当前大语言模型在生物制造产业中的应用并不广泛。


主要还是面临着多模态和非结构化数据整合的问题,包括表格、图像等数据,此外,从文献图表中提取时间序列数据仍是难题。


而未来真正的应用,需要学术界和工业界的共同推动,研究出更多的计算工具和研究范式。


文章来自于“智药局”,作者“智药局”。


天工所打造!国内首个生物制造大语言模型,网页版已上线!

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI