10年科学谜团，被谷歌“AI科学家”2天解决了

5011点击 2025-02-21 09:04

AI协作科学家在测试中提供了新颖的见解。

智东西2月20日报道，用48小时破解生物学家苦心钻研10年的“超级细菌”难题，还可免费申请使用，这是谷歌研究院（Google Research）昨日在AI for Science领域发布的最新成果：一个基于Gemini 2.0构建的AI协作科学家。

AI协作科学家架构（图源：谷歌）

谷歌此番发布的AI协作科学家基于多智能体系统，能作为虚拟科研合作者，帮助科学家生成新颖的假设和研究提案。

在实际测试中，AI协作科学家已经展现出惊人的实力：它独立提出了一个关于细菌基因转移机制（耐药性）的新颖假设，发现了一款白血病治疗再利用候选药物，还识别出了肝纤维化治疗的遗传学靶点。

这些研究之前从来没有发表过，这表明AI协作科学家是自主得出这一见解的。

谷歌AI协作科学家完成的上述科研任务被专业人员界定为中等到超高难度。参与验证的科学家称，AI虽然无法进行证明假设的实验，但如果能在项目开始之初就得到相关假设，那么就能节省几年的工作。

AI协作科学家能生成并验证研究假设，通过模拟辩论和完善假设，构建知识网络并进化假设，最终生成研究概述供科学家审查。这一系统的目的不是完全取代人类科学家，人类能够全程参与并指导AI的推理过程，从而更好地满足科研实际需求。

目前，谷歌已经将AI协作科学家测试版免费提供给研究人员，并且还将发布一个API接口，以允许网站使用其基础技术。

10年科学谜团，被谷歌“AI科学家”2天解决了

AI协作科学家论文（图源：谷歌），

01.跨学科合作推动科学发现，AI协作科学家适用于多个领域

科学发现的过程一直依赖于跨学科的合作，这种模式在历史上促成了许多重大的科学突破。

谷歌研究院团队认为，随着大语言模型的发展、AI多模态理解能力的提升，科学家们现在可以使用这些技术，帮助他们跨越学科的界限，整合不同领域的知识和数据。

此前，获得诺贝尔奖的谷歌DeepMind CEO Demis Hassabis和研究总监John Jumper等人，通过发明AlphaFold彻底改变了生物学研究的游戏规则，这一系统能预测蛋白质结构，大幅度节省研究时间。此外，也有不少研究者开发了类似的AI工具。

不过，现有的AI系统在科学发现中的应用仍存在局限性。例如，一些系统依赖于回顾性数据，缺乏端到端验证；另一些系统虽然在文献总结方面表现出色，但在生成新的科学假设方面能力不足。

谷歌研究院此番推出的AI协作科学家通用性更强，适用于多个研究领域，不仅能够进行文献探索和假设验证，还能通过模拟科学辩论和自我批判来完善假设，从而加速科学发现的进程。这一系统还能结合专家反馈和实验室验证，确保生成的假设不仅新颖，而且具有实验验证的可行性。

他们的目标不是将科学发现工作完全自动化，而是为科学家打造一个强大的AI协作者。这一系统通过灵活的自然语言交互和专家反馈机制，确保科学家能够全程参与并指导AI的推理过程，从而更好地满足科学家的实际需求。

02.多智能体协作进行科研，不断自我批评、迭代

AI协作科学家系统由多个智能体组成，每个智能体负责不同的任务，包括生成假设、反思假设、排名假设、进化假设等。系统的核心是通过生成、辩论和进化的方法，结合科学方法的启发，利用计算资源的扩展来加速假设生成。

系统的设计包括以下几个关键组件：

1、自然语言交互界面（Natural Language Interface）

科学家通过自然语言与系统交互，定义研究目标、提供反馈、提出自己的想法，并指导系统的推理过程。

2、异步任务执行框架（Asynchronous Task Execution Framework）

系统采用异步任务队列管理多个智能体的工作流程。监督智能体（Supervisor Agent）负责分配任务、管理资源，并根据需要动态调整计算资源的分配。

3、专用智能体（Specialized Agents）

系统由多个智能体组成，每个智能体负责特定的推理任务，共同协作生成高质量的研究假设和实验方案。这些智能体包括：

生成智能体（Generation Agent）：负责生成初始假设和研究提案。

反思智能体（Reflection Agent）：对生成的假设进行评估和审查，确保其合理性、新颖性和可行性。

排名智能体（Ranking Agent）：通过锦标赛机制对假设进行排名，比较不同假设的优劣。

进化智能体（Evolution Agent）：通过改进和优化排名靠前的假设，提升其质量。

相似性智能体（Proximity Agent）：计算假设之间的相似性，帮助组织锦标赛并探索假设空间。

元评审智能体（Meta-review Agent）：总结锦标赛中的反馈和模式，优化其他智能体的表现，并生成研究概述。

4、上下文记忆（Context Memory）

系统使用持久化上下文记忆来存储和检索智能体和系统的状态，支持长周期的迭代计算和科学推理。

5、工具使用（Tool Use）

系统能够调用外部工具（如网络搜索、专用AI模型等），以增强生成假设的依据和质量，确保其科学性和可行性。

6、科学家反馈（Scientist Feedback）

科学家可以通过自然语言提供反馈，直接参与系统的推理过程，指导系统生成更符合需求的假设和研究方案。

7、研究概述生成（Research Overview Generation）

元评审智能体将排名靠前的假设总结为详细的研究概述，供科学家进一步评估和指导后续研究。

10年科学谜团，被谷歌“AI科学家”2天解决了

这一系统的高质量回答得益于其推理过程中使用的大量计算资源，也就是所谓的测试时计算（Test-time Compute）。测试时计算主要用于迭代推理、演化和改进输出。

关键推理步骤包括基于自博弈的科学辩论以生成新假设、排名锦标赛以比较假设，以及一个用于质量改进的“进化”过程。系统的Agent性质促进了递归自我批评，包括使用工具进行反馈以细化假设和提案。

系统的自我提升依赖于从锦标赛中得出的Elo自动评估指标。谷歌团队在GPQA diamond基准测试上验证了，更高的 Elo评级与正确率呈正相关。

10年科学谜团，被谷歌“AI科学家”2天解决了

在科研问题上，谷歌让7位人类专家策划15个开放性研究目标，并让人类专家给出最佳的假设解决方案。通过自动化的Elo评估指标，AI协作科学家在解决这些复杂问题时超越了其他最先进的智能体和推理模型。

10年科学谜团，被谷歌“AI科学家”2天解决了

扩展测试时计算在这一测试中得到了鲜明的展现。随着系统投入更多时间进行推理和改进，其自动评估结果质量逐渐提升，最终超越了其他模型和未经辅助的人类专家。

10年科学谜团，被谷歌“AI科学家”2天解决了

在11个研究目标上，专家们对AI协作科学家生成的结果与其他相关基线模型进行了比较，评估了其新颖性和影响力，并给出了总体偏好的评价。

尽管样本量较小，但专家们认为AI协作科学家在新颖性和影响力方面具有更高的潜力，并且更倾向于信任其输出结果。此外，这些人类专家的偏好与之前的Elo自动评估指标相一致。

10年科学谜团，被谷歌“AI科学家”2天解决了

03.可解决超高难度科研问题，回溯数十年文献得出新假设

谷歌在三个关键生物医学领域对AI协作科学家生成的假设和研究方案进行了端到端的实验室验证：药物再利用（中等难度）、提出新的治疗靶点（高难度），以及阐释抗菌素耐药性的机制（超高难度）。这些验证过程均在专家指导下进行。

10年科学谜团，被谷歌“AI科学家”2天解决了

1、急性髓系白血病的药物再利用

药物开发是一个日益耗时且成本高昂的过程，针对每种疾病或适应症，都需要重新启动发现和开发过程的许多环节。药物再利用通过发现现有药物的新治疗用途来应对这一挑战，但这一任务的复杂性要求具备广泛的跨学科专业知识。

谷歌的AI成功为急性髓系白血病（AML）提出了新的再利用候选药物，后续实验验证了这些提议，确认所建议的药物在多种AML细胞系中以临床相关浓度（能达到预期效果的最低或最高浓度）抑制肿瘤活性。

10年科学谜团，被谷歌“AI科学家”2天解决了

04.结语：AI进一步加速科学发现

谷歌研究团队提出，未来他们还将进一步增强AI协作科学家在文献综述、事实核查、连贯性检查方面的能力，也会让更多领域的专家参与到系统的改进过程中，提升其可用性与可信度。

此外，强化学习、多模态数据整合、实验室自动化集成等方向的探索，将让现有系统的能力进一步提升，能更加端到端地完成复杂科研任务，进一步加速科学发现。

文章来自于“智东西”，作者“陈骏达”。

10年科学谜团，被谷歌“AI科学家”2天解决了

关键词: AI , Gemini 2.0 , AI科学家 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md