
科学发现的轨迹,如同交织在人类历史中的璀璨织锦,经历了一系列范式的演进。早期的探索,主要依赖于由直觉、反复试验或机缘巧合驱动的经验发现。随后,以牛顿力学为代表的理论框架,为我们洞察自然现象的基本原理提供了基石。高性能计算的崛起,则开启了跨学科、多尺度建模的计算科学时代。而这些过程产生的海量数据,又将我们推向了以揭示高维数据隐藏关系为核心的数据科学范式。
如今,我们正迎来一个可能的新范式——智能体科学(Agentic Science)。在这个范式中,AI 智能体能够(半)自主地进行探索和学习,解锁前所未有的科学发现路径。

▷Xin, Hongliang, John R. Kitchin, and Heather J. Kulik. "Towards agentic science for advancing scientific discovery." Nature Machine Intelligence (2025): 1-3.
从历史上看,人工智能智能体的概念可以追溯到AI的黎明时代。1965年,DENDRAL系统应用基于规则的推理来分析化学数据、推断分子结构,成为最早的领域专用AI系统之一 [1]。1966年,ELIZA通过模拟心理治疗师的文本对话,展示了自然语言交互的潜力 [2]。此后数十年,专家系统、概率模型和机器学习技术不断拓展着AI智能体的能力边界。
2010年代深度学习的革命性突破,使系统能够大规模处理非结构化数据,学习复杂模式。而近期,大语言模型(LLM)的飞速发展,极大地拓宽了智能体AI的可及性、适应性和科学相关性,为其跨研究领域的整合开辟了新纪元。
AI智能体的一个决定性特征,是其独立的能动性(Agency)[3]。这种灵活性由作为其核心的多模态大语言模型所驱动,使其能够跨越文本、图像、音频、视频乃至化学式、数学表达式等结构化数据进行高级推理。
通过主动学习和与外部工具(如软件、自动化实验室硬件)的无缝集成,AI智能体可以直接与物理世界和数字资源互动,收集新数据。最新的进展,如“模型上下文协议”(Model Context Protocol)和“Agent2Agent”通信协议,正在为构建由多个自主智能体协同工作的分布式系统铺平道路。
这些发展共同赋予了AI智能体解释观察、理解用户指令、制定行动计划并实时调整策略的能力。其多步骤的战略思维使其能够预见行动后果,平衡短期与长期目标。凭借其远见卓识、模块化架构和强大的工具集成能力,智能体AI正引领科学研究从大规模数据分析,迈向自主实验设计的新时代。
这一变革的基础,是旨在自动化整个科研工作流程的AI智能体框架——从假设生成、实验规划、数据分析到最终的成果发表。
(1)Sakana AI推出的AI Scientist等新兴系统,已在尝试自主管理整个研究周期,包括构思、设计、分析乃至稿件撰写和审阅,力求最大限度地减少人工干预 [4]。

▷图1:Sakana AI所设计的人工智能科学家系统说明。人工智能科学家首先集思广益一组想法,然后评估它们的新颖性。接下来,它编辑由自动代码生成的最新进展提供支持的代码库,以实现新颖的算法。然后,科学家进行实验以收集由数字数据和视觉摘要组成的结果。它制作了一份科学报告,解释结果并将其置于背景中。最后,人工智能科学家根据顶级机器学习会议标准生成自动同行评审。该审查有助于完善当前项目,并为后代提供开放式构思的信息。
(2)FutureHouse平台则展示了如何将多个专门的AI智能体(如文献分析师、新颖性检测器、实验规划师)组合成一个强大的化学研究流水线 [5]。

▷图2:FutureHouse 平台提出的多智能体科学发现体系的四层架构。该图展示了人类科学家与人工智能系统在科研过程中的协同关系:最上层由人类科学家提出核心科学问题与探索目标(,作为整个系统的研究驱动力;第二层的 AI 科学家通过构建世界模型、生成假设并开展实验,形成自动化的科学推理与验证循环;第三层的 AI 科研助手由针对特定学科流程的智能体组成,如可执行文献检索、蛋白功能注释、新蛋白设计、单细胞测序分析等任务,为 AI 科学家的推理提供数据与知识支持;最底层的 AI 工具层包括预测模型(如 AlphaFold)、API 接口与实验室自动化实验系统,为上层智能体提供算法支撑与实验验证。整个架构体现了从工具到智能体再到智能科学家的递进式协作,旨在推动复杂科研任务的智能化与系统化。
(3)专注于材料科学的LLaMat模型,在生成化学上有效的晶体结构和从文献中提取技术数据方面,展现了前所未有的能力 [6]。

▷图3:LLaMat 在材料科学领域的开发流程与功能示意。该图展示了 LLaMat 的两阶段开发过程:首先进行基于材料科学语料的持续预训练(上方),随后通过两条专门的指令微调路径进行优化(左右分支)。预训练数据主要来源于学术论文、晶体结构文件以及通用文本语料。两条微调路径分别产出两个模型:LLaMat-Chat——可辅助材料研究、执行结构化信息抽取与材料语言处理任务;以及 LLaMat-CIF——专注于晶体结构的分析与生成。图中示例展示了模型在处理不同类型材料科学问题与任务时的表现。
这些新兴框架,正推动我们朝着一个可扩展、透明和协作的智能体生态系统迈进,以加速科学发现。
重要的是要认识到,智能体AI的影响力因学科而异。在化学和材料科学这类问题结构化、数据丰富且自动化程度高的领域,智能体方法已带来切实的好处。
(1)在化学领域,Coscientist系统利用LLM解释自然语言指令,自主设计实验并通过API操作云端实验室设备 [7]。

▷图 4:AI co-scientist的多智能体架构设计。该系统能够接收研究者以自然语言形式输入的科研目标,并将其解析为可执行的研究计划配置。随后,计划被发送至监督智能体(Supervisor agent),由其评估整体方案,分配各专业智能体的权重与资源,并根据权重优先级将其排入任务队列。各工作进程依次执行队列中的智能体任务,系统最终整合所有结果,生成包含研究概述、详细假设与方案建议的输出,为科研人员提供支持。在图中,“AI 共研智能体的专用智能体”部分中的红色方框表示具有不同逻辑与功能的独立智能体,蓝色方框表示科研人员参与与反馈的环节;深灰色箭头表示信息在系统中的传递路径,而红色箭头则代表各专用智能体之间的信息反馈循环。
(2)在材料科学领域,A-Lab作为一个全自主固态合成实验室,集成了机器人、机器学习和从头计算。虽然它也使用LLM预测合成方案,但尚未形成闭环的智能体行为 [8]。相比之下,采用检索增强生成(RAG)的LLaMP框架,则通过分层推理-行动智能体,实现了真正意义上的高保真知识动态合成 [9]。

▷图5:LLaMP 系统中的分层 ReAct 智能体规划架构图。该架构通过标准化的 LangChain 接口部署了两层智能体:上层为监督型 ReAct 智能体,下层为多个助理型 ReAct 智能体。监督智能体负责统筹与调度底层助理智能体的工作,每个助理智能体都配备有独立的工具集和数据/文档存储,以完成不同类型的科研任务,包括高保真材料信息检索、原子级建模与仿真、以及文献搜索等。
然而,在社会科学等统一数据集稀缺、研究问题定义模糊的领域,AI仍难以有效施展。同样,在临床诊断或动物行为研究等需要细致人类判断和伦理敏感性的任务中,AI智能体必须服从于人类专家的智慧,其边界条件明确。
(1)幻觉与事实的边界
AI智能体在科学应用中的一个关键挑战,是LLM固有的“幻觉”倾向——即产生听起来似是而非但无法验证或不正确的信息。尽管这种推断偶尔可能触及未知的创新领域,但它也极有可能引入错误,破坏科学的严谨性。
为了管理科学推理的复杂性,AI智能体必须植根于领域知识。通过整合知识图谱(如化学反应网络、基因本体库)等结构化资源,智能体可以交叉验证其输出,减少事实错误。
然而,“幻觉”的形式可能更为微妙。一种被称为“草率”(slopsquatting)的现象——即LLM“发明”并引用不存在的软件包或文献——凸显了对缺乏知识基础的输出产生无端信心的巨大风险。在需要持续推理和上下文感知的长期、多步骤任务中,这一问题尤为突出。METR等最新基准测试表明,即使是先进的LLM智能体也难以应对此类任务,往往会随着时间推移累积并放大微小错误。这凸显了整合领域知识、外部验证和人类监督对于确保AI智能体安全可靠部署的重要性 [10]。
(2)如何评估一个“AI科学家”?
在提高事实可靠性的同时,另一个根本性挑战在于如何评估智能体AI的性能。传统的机器学习指标(如准确率、精确度)显然不适用。对于一个交互式、多步骤、目标驱动的“AI科学家”,我们该如何衡量其优劣?
最近,学界提出了一些新指标,如pass@k(k次尝试中至少成功一次)、步数、推理图中的最短路径距离等 [11]。针对特定领域的基准测试也在涌现,例如,自主显微镜的AFMBench基准就在真实实验室任务中测试了LLM驱动的智能体,揭示了其在复杂科学工作流程中的关键故障模式 [12]。
然而,这些指标和基准远未标准化,且缺乏跨领域的普适性。在材料科学等领域,工作流程的多样性、实验结果的变异性以及高度依赖上下文的成功定义,都使一致性评估变得异常困难。最终,对这些系统的真正考验,或许不仅在于形式化的指标,更在于它们是否能在实际科研中提供可衡量的效用。
(3)提示词的“蝴蝶效应”
与评估挑战紧密相关的,是提示词脆弱性(Prompt Fragility)问题:智能体系统对自然语言输入的细微变化或歧义极为敏感。就像动力系统中的初始条件,一个措辞不当或含糊的提示,可能引导模型走向完全不同甚至错误的路径。
这种“脆弱性”在科学背景下尤其危险。为了解决这个问题,智能体框架必须内置验证机制和安全联锁。例如,在关键决策点,中间输出应由人类专家或专门的“验证智能体”进行审查。一旦检测到不一致或不合理的行动(如提议使用不存在的化合物或违反安全规程),系统应能自动暂停或修正计划。没有这样的保障,多步骤的自主性就有可能将小错误累积成重大的科学脱轨。
解决这些技术障碍需要多管齐下的方法:通信协议和数据格式的标准化、可扩展的计算资源,以及迁移学习、自监督学习和强化学习等先进学习方法的集成。
除了解决技术难题,AI智能体还有望从根本上提升科学研究的严谨性和可复现性。通过系统性地分析文献、识别矛盾和被忽视的缺口,AI智能体能帮助研究人员更深入、更一致地验证假说。
为了实现这一目标,涉及智能体AI的科学报告必须包含详尽的透明文档(如所用模型版本、代表性提示词和智能体对话),以便他人复现。期刊和会议也应建立类似实验方案的标准化报告指南。
与此同时,伦理考量是部署智能体AI的核心。我们必须警惕算法偏见(例如,AI可能倾向于强化主流趋势而忽视非传统路径),并确保决策过程的透明度。在整个人工智能管道中设置制衡机制,并始终保持“人类在环”(Human-in-the-loop),让人类科学家提供战略监督和批判性审查,是至关重要的。
负责任地整合AI智能体,需要一种整体性方法,确保这些技术在成为科学发现催化剂的同时,始终与严谨的科学精神和社会价值观保持一致。一个由AI处理高通量任务、人类提供战略监督和伦理把关的人机协同新范式,正向我们走来。它不仅将加速科学的步伐,更有可能提升科学探究的标准,培育一个更加透明和值得信赖的科研文化。
[1] Lindsay, R. K., Buchanan, B. G., Feigenbaum, E. A. & Lederberg, J. Artif. Intell.61, 209–261 (1993).
[2] Weizenbaum, J. Commun. ACM9, 36–45 (1966).
[3] Masterman, T., Besen, S., Sawtell, M. & Chao A. Preprint at https://doi.org/10.48550/arxiv.2404.11584 (2024).
[4] Lu, C. et al. Preprint at https://doi.org/10.48550/arxiv.2408.06292 (2024).
[5] Narayanan, S. M. et al. Preprint at https://doi.org/10.48550/arxiv.2506.17238 (2025).
[6] Mishra, V. et al. Preprint at https://doi.org/10.48550/arxiv.2412.09560 (2024).
[7] Boiko, D. A., MacKnight, R., Kline, B. & Gomes, G. Nature624, 570–578 (2023).
[8] Szymanski, N. J. et al. Nature624, 86–91 (2023).
[9] Chiang, Y., Hsieh, E. Chou, C.-H. & Riebesell, J. Preprint at https://doi.org/10.48550/arxiv.2401.17244 (2024).
[10] Kwa, T. et al. Preprint at https://doi.org/10.48550/arxiv.2503.14499 (2025).
[11] Yao, S., Shinn, N., Razavi, P. & Narasimhan K. Preprint at https://doi.org/10.48550/arxiv.2406.12045 (2024).
[12] Krishnan, N. M. A. et al. Preprint at https://doi.org/10.48550/arxiv.2501.10385 (2024).
文章来自于“追问nextquestion”,作者 “曾利”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0