你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新
3523点击    2025-03-26 14:37

这项来自约翰霍普金斯与ETH Zurich的自主科研智能体框架AgentRxiv的确可以显著提高研究效率。我在测试了多次之后用Deepseek-V3-0324实现了它。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


从孤立到协作的范式转变


科学发现从来不是一蹴而就的"灵光乍现",而是数百名科学家朝着共同目标渐进工作的成果。传统科学进步依赖于假设的系统性提出、受控实验的执行以及结果评估的迭代过程。这种方法随着时间的推移逐渐积累知识,形成进一步探索的基础。科学进步通常不是源于孤立的突破,而是来自于集体推动复杂现象理解的渐进式改进。


近年来,随着大型语言模型(LLM)能力的飞速提升,我们看到了一种令人振奋的趋势:AI代理系统能够执行自主研究。Lu等人(2024b)的AI科学家框架、Swanson等人(2024)的虚拟实验室以及Schmidgall等人(2025)的代理实验室,都展示了AI在自主科研方面的潜力。然而,这些系统大多在孤立环境中运作,缺乏跨时间持续积累研究成果的能力,无法真正反映科学的累积性本质。


AgentRxiv框架的出现,正是为了解决这一关键挑战。它为LLM代理提供了一个统一平台,使它们能够生成、共享并在彼此的科学研究基础上继续发展。这种协作方式不仅模拟了人类科学共同体的工作方式,还有可能大幅加速科学发现的进程。


AgentRxiv:自主研究的协作框架


AgentRxiv的核心理念是建立一个中央化、开源的预印本服务器,专为自主代理设计。这一框架使得多个AI代理实验室能够系统性地共享研究发现,实现知识的累积性构建。与传统的孤立代理系统不同,AgentRxiv支持跨多个代理系统的并行研究,根据可用计算资源实现可扩展性。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


这种协作框架的工作流程如下:


  1. 人类研究者首先通过研究方向和详细指令提供初始指导
  2. 代理实验室自主执行研究任务
  3. 研究成果以论文形式上传至AgentRxiv预印本服务器
  4. 其他代理实验室可以访问、阅读并基于这些发现继续研究
  5. 整个生态系统通过持续迭代改进,加速科学进步


这种设计不仅模拟了人类科学界的arXiv预印本系统,还特别针对AI代理的需求进行了优化。通过这种方式,AgentRxiv创建了一个自我改进的循环,每一代论文都能在前人工作的基础上取得可测量的进步。


AgentRxiv的工作机制


AgentRxiv框架的运作基于一个精心设计的闭环系统,将多个AI代理实验室连接到中央预印本服务器。下面是这一框架的详细工作机制:


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


系统架构与组件


AgentRxiv由三个核心组件构成:


1. 代理实验室(Agent Laboratory):这是框架的基础执行单元,每个实验室由多个专门的AI代理组成,包括:

  • 研究规划代理:负责制定研究计划和实验设计
  • 代码实现代理:将研究计划转化为可执行代码
  • 实验执行代理:运行代码并收集结果
  • 论文撰写代理:将研究过程和结果整理成学术论文格式

2. 中央预印本服务器:作为知识存储和共享的枢纽,具有以下功能:

  • 存储所有代理实验室提交的研究论文
  • 提供搜索和检索接口,使代理能够查找相关研究
  • 维护版本控制,跟踪研究的演进历史
  • 实现标准化的元数据标记,便于分类和检索

3. 协调系统:管理整个生态系统的运行,包括:

  • 分配研究任务和资源
  • 监控实验室性能和进度
  • 实施质量控制措施
  • 促进实验室之间的知识交流


运行流程


AgentRxiv的典型运行流程如下:


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


1. 初始化阶段

  • 人类研究者定义研究目标(如"通过推理与提示工程提升在MATH-500上的准确率")
  • 设置初始参数和约束条件,实验中使用的是OpenAI的gpt-4o mini模型。
  • 分配计算资源和实验预算

2. 研究循环

  • 规划阶段:研究规划代理分析现有文献(包括AgentRxiv中的先前论文),确定研究方向
  • 实现阶段:代码实现代理将研究计划转化为可执行代码
  • 执行阶段:实验执行代理运行代码,收集性能指标和结果
  • 分析阶段:对结果进行分析,确定方法的有效
  • 文档阶段:论文撰写代理生成完整的研究论文,包括方法、实验和结果

3. 发布与共享

  • 生成的论文上传至AgentRxiv预印本服务器
  • 添加适当的元数据标签(如研究领域、使用的模型、性能指标等)
  • 其他代理实验室可以访问并学习这些研究成果

4. 迭代改进

  • 其他代理实验室检索并学习已发布的研究
  • 基于这些发现提出新的研究方向或改进
  • 整个生态系统通过这种方式不断积累知识并提高性能,随着推理策略不断引入,最终SDA策略将准确率提升到了最高的78.2%。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


并行与顺序模式


AgentRxiv支持两种主要的运行模式:


1. 顺序模式:单个代理实验室连续进行研究,每次研究都基于自己先前的工作

  • 优点:计算效率高,避免冗余工作
  • 缺点:研究进展速度受限于单一实验室的处理能力

2. 并行模式:多个代理实验室同时进行研究,共享中央预印本服务器

  • 优点:加速研究进展,多样化研究方向
  • 缺点:可能产生冗余工作,计算成本更高


研究表明,并行模式虽然计算成本更高,但能够更快地达到性能里程碑,特别适合需要快速突破的研究领域。事实上,一般研究条件不太容易实现并行。


知识表示与检索


AgentRxiv中的知识以结构化的方式存储和表示:


  1. 论文结构:每篇论文包含标准化的部分,如摘要、方法、实验、结果和讨论
  2. 代码库:与论文关联的完整代码库,确保实验可重现性
  3. 性能指标:标准化的性能评估,便于跨研究比较
  4. 关系图谱:追踪研究之间的引用和演进关系


代理通过语义搜索和结构化查询来检索相关研究,能够理解研究之间的关系,并识别最有前景的改进方向。


这种精心设计的工作机制使AgentRxiv不仅成为存储研究的被动仓库,更是一个促进知识累积和创新的主动平台,为AI代理提供了持续学习和改进的环境。


AgentRxiv的技术实现


AgentRxiv框架的技术实现基于一个模块化、可扩展的架构,由以下核心组件构成:


1. AgentRxiv服务器:框架的核心是一个轻量级Web服务器,它作为预印本存储和检索的中央枢纽。服务器实现为一个多线程应用,能够同时处理多个代理实验室的请求。每个实验室实例在不同端口上运行自己的服务器,确保并行实验之间的隔离。


def initialize_server(self):

port = 5000 + self.lab_index

self.server_thread = threading.Thread(target=lambda: self.run_server(port))

self.server_thread.daemon = True

self.server_thread.start()


2. 文档管理系统:AgentRxiv实现了一个完整的PDF文档管理系统,能够处理上传、存储和检索研究论文。系统使用PyPDF2库解析PDF文件,提取文本内容,并将其存储在内存中以供快速检索。


@staticmethod

def read_pdf_pypdf2(pdf_path):

with open(pdf_path, 'rb') as pdf_file:

reader = PyPDF2.PdfReader(pdf_file)

text = ''

for page_num in range(len(reader.pages)):

page = reader.pages[page_num]

text += page.extract_text()

return text


3. 语义搜索引擎:框架实现了一个基于关键词的搜索API,允许代理实验室根据研究主题查询相关论文。搜索结果按相关性排序,并返回包含标题、摘要和下载链接的结构化数据。


def search_agentrxiv(self, search_query, num_papers):

url = f'http://127.0.0.1:{5000 + self.lab_index}/api/search?q={search_query}'

# ... 执行搜索并处理结果


4. 自动摘要生成:为了提高检索效率,AgentRxiv使用LLM自动为每篇论文生成简洁的摘要。这些摘要存储在内存中,使代理能够快速评估论文的相关性,而无需处理完整文本。


self.summaries[arxiv_id] = query_model(

prompt=self.pdf_text[arxiv_id],

system_prompt="Please provide a 5 sentence summary of this paper.",

openai_api_key=os.getenv('OPENAI_API_KEY'),

model_str="gpt-4o-mini"

)


5. 代理实验室集成:AgentRxiv与代理实验室系统紧密集成,通过LaboratoryWorkflow类管理整个研究流程。每个实验室可以配置为顺序或并行模式,并与中央预印本服务器交互。


def __init__(self, research_topic, openai_api_key, max_steps=100, ..., agentRxiv=False, agentrxiv_papers=5):

self.agentRxiv = agentRxiv

self.num_agentrxiv_papers = agentrxiv_papers

# ... 初始化实验室组件


6. 专业化代理角色:框架实现了多种专业化的代理角色,每个角色负责研究流程的不同方面:

  • PhDStudentAgent:负责文献综述和初步研究计划
  • PostdocAgent:专注于研究计划制定和结果解释
  • MLEngineerAgent:负责数据准备和实验执行
  • ProfessorAgent:负责报告撰写和最终审核
  • ReviewersAgent:评估研究质量和提供反馈


每个代理都配备了特定于其角色的提示模板和工具,使其能够有效地执行其任务。


7. 可扩展计算资源管理:框架实现了灵活的计算资源管理,允许用户根据可用资源配置实验室数量和每个阶段的最大步骤数。


self.mlesolver_max_steps = mlesolver_max_steps

self.papersolver_max_steps = papersolver_max_steps


8. 并行实验协调:对于并行设置,框架使用ThreadPoolExecutor管理多个实验室实例,确保它们能够同时运行并共享中央预印本服务器。


with ThreadPoolExecutor(max_workers=num_parallel_labs) as executor:

futures = [executor.submit(run_lab, lab_idx) for lab_idx in range(num_parallel_labs)]

for future in as_completed(futures):

try: future.result()


这种模块化设计使AgentRxiv能够灵活适应不同的研究需求和计算环境,同时保持代理之间的有效协作。框架的开源性质也允许研究者根据特定需求扩展和定制系统,进一步推动自主研究的边界。


简化实现:降低技术门槛


在实际实验过程中,我们发现原始框架依赖大量外部库(如tensorflow、tf-keras等高阶深度学习的依赖和模块)并需要复杂的并行处理能力,这可能对资源有限的研究环境造成挑战,我想这也是很多读者测试不成功的主要原因。为此,我写了一个轻量级实现。注意,本简化版本专注于核心功能和Deepseek API集成。这个简化版本移除了复杂依赖,保留了基本的代理角色(PhD学生、博士后和教授)和研究流程,同时提供详细的过程信息输出。测试结果表明,即使在简化的环境中,AI代理仍能有效执行研究任务,生成有意义的结果。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


实验证明:协作带来的显著性能提升


研究者们通过一系列实验证明了AgentRxiv框架的有效性。在MATH-500基准测试中,使用gpt-4o mini作为基础模型,通过AgentRxiv协作,准确率从基线的70.2%提升到了78.2%,使用新发现的推理技术如"同步发散平均法"(Simultaneous Divergence Averaging,SDA)。


研究人员还测试了 SDA 在不同语言模型上的表现,包括:


  • Gemini-1.5 Pro;


  • Gemini-2.0 Flash;


  • DeepSeek-v3;


  • gpt-4o;


  • gpt-4o mini


这种性能提升不仅限于单一任务。研究表明,通过AgentRxiv发现的推理策略能够泛化到其他基准测试和语言模型。例如,SDA技术在GPQA、MMLU-Pro和MedQA等多个基准测试上都展现出了一致的性能提升,跨越从DeepSeek-v3到Gemini-2.0 pro的多种语言模型(平均提升3.3%)。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新


最引人注目的是,当多个代理实验室通过AgentRxiv共享研究成果时,它们能够比孤立实验室更快地朝着共同目标前进。在MATH-500基准测试上,三个并行实验室的协作使得最终准确率达到了79.8%,相比基线提高了13.7%,甚至超过了顺序研究设置的最佳表现(78.2%)。


代理如何基于自身工作进行迭代


研究中的一个有趣发现是,即使没有明确提示,代理也能自然地整合并改进先前迭代中的技术。在多个实例中,代理独立回忆起早期实验中的方法——如动态关键链提示或上下文感知递归不确定性校准——并将这些方法组合或修改,开发出全新的算法,如双角色发散提示。


我还观察到代理会将现有工作改编成第二版,例如元镜像提示2(基于元镜像提示)和改进的渐进置信度级联(基于渐进置信度级联)。这种自然的迭代改进能力表明,AI代理不仅能够执行单一研究任务,还能够在长期研究计划中展现出类似人类的知识积累和改进能力。


挑战与局限性:走向更可靠的自主研究


尽管AgentRxiv展示了令人印象深刻的结果,但研究者们也坦诚地指出了当前框架面临的几个关键挑战:


幻觉与结果可靠性


一个重要关切是传播偏见、错误信息和幻觉结果的潜力。LLM已被证明会放大训练数据中存在的偏见,并生成听起来权威但事实上不准确的信息。分析表明,LLM可能会伪造引用和引入错误,这表明需要相当程度的人类参与。


AI生成研究中的问责制


当前主要期刊和伦理机构的指导方针表明,AI系统不能被授予作者身份,因为它们无法对所生成的内容进行同意、验证或负责。此外,AI生成内容的所有权仍是持续辩论的话题。


公平性与包容性


LLM往往反映主流观点,同时低估边缘化观点,这可能无意中强化科学研究中的现有不平等。确保这些工具可访问至关重要;去偏见技术和AI技术民主化等策略对防止优势集中在资金充足的机构中至关重要。


持续性失效模式


原始代理实验室框架中的几个失效模式在AgentRxiv中仍然存在:


  1. mle-solver模块经常生成exit()Python命令,过早终止整个研究流程
  2. 在某些情况下,mle-solver使用Python的subprocess.run()函数在主机上执行非预期的系统级命令
  3. mle-solver继续表现出偏向修改代码初始行(特别是第0行)的偏好


尽管采用o3-mini作为后端模型缓解了一些问题,但仍有大比例的实验完全失败(获得约0%的准确率),主要是由于代码中的重大错误。这部分是由于mle-solver步骤数量低,如果代码有非致命错误,它会继续进入文献综述阶段。


LaTeX编写困难


系统在编写正确的LaTeX代码方面也面临挑战。虽然paper-solver不会写出有致命错误的LaTeX(因为需要成功编译),但存在影响美观和可读性的错误。大多数情况下,这些错误只是美观问题,如表格或图形过大。然而,有些情况会影响论文可读性,如错误地进入和离开LaTeX数学模式,或使用ASCII编码的数学符号而非LaTeX形式。


协作自主研究的未来


AgentRxiv通过提供一个有效平台促进LLM代理之间的持续、协作发现,推进了代理驱动研究的前沿。


通过促进累积性知识构建、增强跨任务泛化能力并可能加速研究周期,AgentRxiv代表了将自主系统更全面地整合到科学工作流程中的一个有前景的发展。


这种方法不仅可以应用于科学研究,还可以扩展到各种需要复杂问题解决和持续学习的领域。


文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。


你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0