试想一下,AI智能体某天帮你自主研究、查文献时,或许每个人科研产出直接起飞。
最近,Sakana AI首篇由AI生成的论文,正式通过了ICLR 2025同行评审。
但问题来了,现在的AI智能体都在各自为战,无法协作和传承既有的研究成果。
为此,霍普金斯联手ETH Zurich研究人员重磅推出AgentRxiv,一个专为自主研究智能体设计的框架。
它的诞生,就为了让智能体上传、检索,并相互借鉴研究成果。
论文地址:https://agentrxiv.github.io/resources/agentrxiv.pdf
简单来说,AgentRxiv就像是一个「预印本服务器」,不仅允许研究者设定方向,让智能体持续产出论文。
最重要的是,它还能确保每篇新作都建立在以往研究基础之上,实现真正迭代式进步。
经过测试,在数学推理任务中,基于AgentRxiv的智能体在开发全新推理技术时,会参考前人研究报告。
gpt-4o mini准确率从70.2%提升至78.2%,相较基线和思维链分别飙升11.4%、9.7%。
此外,AI智能体在发现最佳算法(SDA)的多项基准测试中,SDA平均提升3.3%准确性。
更值得一提的是,在三个独立实验室通过AgentRxiv共享预印本并行实验中,最优方法准确率高达79.8%,相较基线提升13.7%。
比传统的序列实验,这种协作模式更快速达成关键里程碑,从侧面印证了AgentRxiv在加速研究进程中巨大潜力。
现有的研究框架往往独立运行,生成的研究成果如同一个个「孤岛」,智能体之间被完全「隔离」。
这种隔离限制了科学发现的累积进展和泛化。
在科学研究中,研究成果通常是站在「巨人的肩膀」上基于前人的工作来实现的。
为了让智能体也能从协作共享中受益,需要一种结构化的机制来打通这些「孤岛」。
智能体实验室工作流程,上图图展示了智能体实验室的三个阶段:文献回顾、实验和报告撰写。
人类研究员与AI智能体(例如博士、博士后)及专门工具(mle-solver、paper-solver)合作,将任务自动化并产出高质量的研究成果。
上图中展示了两个独立的自主智能体实验室通过AgentRxiv进行互动过程。
左侧的实验室提交搜索请求,从AgentRxiv检索出相关研究论文;
右侧实验室完成实验后将研究成果上传至AgentRxiv,供其他实验室查阅。
第一个目标是验证:智能体是否能基于自身过往研究不断优化成果。
首先使用o3-mini(medium)作为LLM后端能力,运行智能体系统产出了N=40篇论文。
在文献综述阶段,智能体可以同时访问AgentRxiv上的5篇论文,和arXiv上的5篇论文。
然后设定一个研究方向:「通过推理与提示工程提升在MATH-500上的准确率」,实验中使用的是OpenAI的gpt-4o mini模型。
从图中可以看出,每篇新论文的产生都带来了准确率的稳步提升。
一开始,gpt-4o mini的基准表现为70.2%。通过一些早期策略,带来小幅提升,达到了71.4%。
随着推理策略不断引入,最终SDA策略将准确率提升到了最高的78.2%。
进一步评估SDA策略是否能在其他数据集上展现类似效果。
在GPQA(生物/化学/物理研究问答)、MMLU-Pro(跨学科推理)和MedQA(美国医学执照考试)这三个基准上,SDA 均带来了显著提升:
三项基准平均提升9.3%,与MATH-500上的+11.4%表现接近,说明SDA拥有较强的泛化能力。
研究人员还测试了 SDA 在不同语言模型上的表现,包括:
结果显示,SDA在所有模型上都带来了平均+3.3%的性能提升,尤其是在基础表现较差的模型上效果更明显(如gpt-4o mini提升5.9%)。
接下来探索多个自主实验室并行运行、并借助AgentRxiv实现研究成果共享的效果。
研究人员初始化了三个配置相同、研究目标一致的Agent Laboratory系统,并行运行。
每个实验室独立完成文献综述、实验设计与论文撰写,同时通过AgentRxiv异步访问其他实验室发布的论文。
一旦某个实验室上传了新的研究成果,其他实验室即可即时获取,并在后续实验中加以利用。
某个实验室在性能上有所突破时,相关论文就会上传到AgentRxiv,供其他实验室查阅、评估和借鉴。
这种并行设置允许多个研究方向同时推进,有望加快发现的速度。
在并行设置下,早期里程碑如达到76.2%的准确率仅需7篇论文,而在顺序设置下则需要 23 篇论文。
并行设计中表现最好的算法比最佳的顺序算法提高了1.6%,并且并行实验的整体平均准确率比顺序运行高出2.4%。
尽管已有研究表明LLM能提出创新性的研究想法。
但也有研究指出这些系统存在高比例的「抄袭」问题(最高达 24%)。
然而,AI完全生成的研究成果已经开始被正式学术会议接收。
虽然会议收录不能完全证明内容新颖,但至少说明这些成果足以「看起来像新发现」。
对上述表现最好的论文摘要进行了3个不同查重系统的检测,结果均未发现抄袭痕迹。
研究人员还对这些论文进行人工检查,发现高表现算法确实包含一定创新,但很多是对已有技术的「变种」或「组合」,而非完全原创。
比如上述智能体实验室在开发SDA时,确实参考了许多相关研究。
这也表明:虽然SDA在实现与整合上具备一定新意,但是否构成「实质性原创」,在快速发展的领域中难以一锤定音。
因此未来仍需进行大规模的系统性研究。
Samuel Schmidgall
Samuel Schmidgall是约翰霍普金斯大学电子与计算机工程系的二年级博士生,同时也是Google Deepmind医疗AI 团队的研究员。
Samuel Schmidgall之前在2024年夏天是斯坦福大学医疗AI的实习生,在2024年秋天是AMD Gen AI团队的实习生。
Michael Moor
Michael Moor是一名医学博士和哲学博士,研究领域是医疗保健领域的机器学习。
自2024年末起,被任命为位于巴塞尔的苏黎世联邦理工学院(D-BSSE)的医学人工智能方向的终身教职助理教授。
在此之前,Michael Moor在斯坦福大学计算机科学系与Jure Leskovec教授一起做了博士后研究。
研究重点是开发和评估大规模医疗基础模型,最终目标是解锁适用于医疗AI的通用模型。
参考资料:
https://x.com/SRSchmidgall/status/1904172864355410065
https://agentrxiv.github.io/
https://arxiv.org/pdf/2503.18102
文章来自微信公众号 “ 新智元 ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md