12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
7677点击    2025-06-16 09:55

AI两天爆肝12年研究,精准吊打人类!多大、哈佛MIT等17家机构联手放大招,基于GPT-4.1和o3-mini,筛选文献提取数据,效率飙3000倍重塑AI科研工作流。


多伦多大学、哈佛MIT等机构联手AI,短短2天内,竟干完了科学家12年的活!


研究一出,在全网掀起了巨震。


沃顿商学院CS教授Ethan Mollick大受震撼,「AI综述论文体量越来越大,而准确性超越了人类」。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


17家研究机构同著一篇论文,他们目标直指,借助GPT-4.1和o3-mini自动化系统综述。


为此,研究人员设计了otto-SR平台,并在2天内,完成了为期12年的系统综述研究。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


论文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf


结果显示,otto-SR在所有任务中,比如筛查灵敏度、提取、筛选特异度方面,能够媲美甚至超越人类。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


在一项具体的测试中,复现并更新一期完整的Cochrane系统综述,包含了12篇为临床指南提供依据的综述。


令人惊叹的是,otto-SR识别出的相关研究数量(114篇),是原始综述(64篇)的2倍之多。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


这套AI工作流,让系统综述速度飙升3000倍。


这一速度与传统人工流程相比,堪称革命性突破。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


otto-SR证实了LLM能以更高准确率,自主执行复杂的科研任务。未来,有望通过快速、可靠的系统综述,为循证医学带来革命性变革。


人类免疫学家Derya Unutmaz教授认为,这是一个非常了不起的成就。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


AI取得如此惊艳的成果,究竟是如何做到的?


AI全新工作流:

GPT-4.1筛选,o3-mini提取


在循证医学领域,系统综述(Systematic Reviews)是科学决策的基石。


一般来说,传统的系统综述的完成,往往需要耗费16个月,超10万美金的成本。


更重要的是,系统综述的延误,可能导致低效甚至有害疗法长期被使用,对患者来说是一场灾难。


全新otto-SR是一套基于大模型的「端到端」创新工作流。


如下图1所示,不论是「全自动」,还是「人机协同」,两种综述综述模式均支持。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


以下是otto-SR的核心模块:


1 文献筛选智能体


GPT-4.1作为独立评审员,执行摘要和全文筛选。原始检索获得的文献以RIS格式上传,系统即可高效处理。


2 数据提取智能体


由o3-mini-high执行数据提取任务,快速从文献中提取关键变量。


3 PDF处理


通过Gemini 2.0 flash将PDF文件转换为结构化Markdown格式,便于后续分析。


摘要+全文筛选,赶超人类


在摘要筛选阶段,otto-SR筛选智能体表现优异。


其加权灵敏度高达96.6%(区间94.1-100.0%),显著优于Elicit(88.5%)和双人评审组(87.3%)。


在特异度方面,双人评审组以95.7%位居榜首,otto-SR筛选智能体(93.9%)紧随其后,优于Elicit(84.2%)。


这表明otto-SR在最大化捕获相关文献(真阳性)的能力上远超传统方法,同时保持了较高的筛选准确性。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


在全文筛选阶段,otto-SR筛选智能体继续保持领先,灵敏度达96.2%(区间92.3-100.0%),而双人评审组的灵敏度显著下降至63.3%。


在特异度方面,otto-SR(96.9%)与双人评审组(98.1%)均表现优异,而Elicit因不支持全文筛选未参与比较。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


综合表明,otto-SR在保持高特异度(最小化误纳)的同时,能够捕获更多相关研究(真阳性),相较于传统双人评审和商Elicit展现了显著优势。


数据提取,刷爆准确率


在七项系统综述中,otto-SR数据提取智能体的平均加权准确率高达93.1%(区间91.1-97.0%),显著优于双人评审组(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。


在otto-SR提取智能体的6.9%误差案例中,事后分析揭示了主要原因:


· 0.83%(39/4459)因模型无法获取补充文件或需申请的数据;


· 0.67%(30/4459)源于解析错误;


· 0.49%(22/4459)属于otto-SR与原作者均不准确的情况。


这些发现为未来的优化提供了明确方向,例如改进对补充文件的处理能力和解析准确性。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


短短2天,AI爆肝12年工作


既然GPT-4.1+o3-mini在性能评估中刷新SOTA,那么在实际挑战任务中,表现又如何呢?


为了验证实用价值,作者对「Cochrane系统综述数据库」的12篇系统综述,共146,276篇文献,进行了复现与更新测试。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

otto-SR智能工作流


otto-SR聚焦每篇综述的主要结局(Primary Outcome),让入选标准更清晰。


筛选智能体准确识别了全部64项纳入研究;数据提取智能体按Cochrane原始变量定义提取主要结局数据,程序化剔除了缺失主要结局值、重复研究或无干预-对照组的记录。


结果显示,otto-SR错误排除研究的中位数为0篇(IQR 0-0.25)。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


值得一提的是,在限定原始检索截止日期的分析中,otto-SR意外发现了54篇可能被原综述遗漏的合格研究。


人工复核确认其中10篇为假阳性,但9篇可能通过作者沟通获取相关数据。


进一步更新检索至2025年5月8日,otto-SR又发现了14篇新合格研究,其中仅2篇假阳性,1篇可能含相关数据。


另外,在营养学综述中,otto-SR发现了5项新增研究。这一发现展示了otto-SR挖掘新证据、优化结论的能力。


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


作者介绍


Christian Cao


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


Christian Cao目前是多伦多大学医学院在读博士。


目前其研究方向聚焦于开发人工智能模型,致力于预测可避免的住院事件及糖尿病相关并发症。


Rohit Arora


12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈


Rohit Arora目前是哈佛大学生物信息学一年级博士生。


他专注于人工智能在科学研究中的应用,研究方向集中于药物发现与蛋白质设计。


参考资料:

https://x.com/emollick/status/1933704272601911536

https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

https://x.com/ChristianCao11/status/1933201859470053592


文章来自于“新智元”,作者“桃子”。

关键词: AI , AI科研 , otto-SR , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md