人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了
8996点击    2026-03-31 10:29

你开会时,AI竟在偷偷升级?伯克利等四校开源MetaClaw,让Agent趁你开会、离席、睡觉时持续进化,直接打破「上线即冻结」这条行业铁律。


又到了每周例会时间。


你的电脑桌面日历上写着「周会14:00-15:30」,屏幕锁定。


与此同时,一个后台AI进程确认你暂时不会回来,便自动启动了训练窗口:


上午刚犯过的错误被拆解成规则注入系统提示词,随后云端LoRA微调开始接管。


90分钟后,等你散会回到工位,面前的Agent已经完成了一次自我迭代。


这就是开源MetaClaw框架所实现的功能:


让一个已经在线服务的Agent,在不中断服务的前提下持续从失败中进化


这项研究打破了「上线即冻结」这条Agent行业默认规则。


MetaClaw框架由北卡罗来纳大学教堂山分校、卡内基梅隆大学、加州大学圣克鲁兹分校与加州大学伯克利分校联合推出。


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了

https://arxiv.org/pdf/2603.17187


开源即登顶。


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了


MetaClaw刚刚发布便霸榜HuggingFace,它所代表的「Agent持续进化」理念,已经引起了全球AI研究者和开发者的高度关注。


最能体现其工具链成熟度的,是它极具破坏性的部署门槛。


官方仓库展示的控制台操作显示,其庞大的「快慢双循环」机制与OMLS调度器已经被粗暴地简化为了两条命令。


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了


开发者只需输入「metaclaw setup」完成一次性配置,接着输入「metaclaw start --daemon」,系统就会作为一个后台守护进程静默拉起。


这种开箱即用的封装,彻底粉碎了学术模型与实际落地之间的壁垒。


打破Agent「上线即冻结」的结构性困境


当前绝大多数Agent在能力迭代上面临这样一个残酷现状:训练一次、部署上线、长期不变。


但现实世界却是在不断变化的:任务需求在漂移,工作流程在修改,工具链与组织规则也在不断更新


在OpenClaw这类平台上,一个Agent可能需要同时连接20多个消息渠道。


任务分布每小时都在变化,但Agent的能力却仍停留在出厂时刻。


表面上看,行业内已有不少修补方案,例如记录轨迹、构建静态技能库或进行在线强化学习。


但这些方案往往只解决了部分问题:


只存储原始轨迹而不提炼可迁移知识,会导致信息冗长且碎片化;


静态技能库与权重优化彼此脱节;


重新训练Agent通常意味着必须停机,导致在线服务与持续进化无法兼得。


这正是「静态Agent」所面临的现实矛盾:它必须24小时在线,但面对的世界却在不断变化。


无法适应新任务分布的Agent,哪怕初始能力再强,也容易在长期的实际应用中显得刻板。


两条腿走路

快适配与慢进化


为了打破「不停机与持续进化」之间的冲突,MetaClaw将更新机制拆分为两条时间尺度完全不同的回路。


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了

MetaClaw的系统架构图中展示了MetaClaw的「快慢双循环」学习机制。左侧显示OMLS调度器如何监控用户的Google Calendar和键鼠闲置状态,右侧展示系统如何分离支持集与查询集,进行技能提取(快适配)与LoRA权重微调(慢进化)。


第一条路径,是技能驱动的快速适配(Skill-driven fast adaptation)。


当Agent在任务中失败时,系统会将失败轨迹交给另一个大模型进行分析,提炼出可复用的行为规则,并立刻将其注入系统提示词。


这个过程不修改模型权重,不中断服务,且能立即生效。


论文中列举了典型的高频规则:统一时间格式、执行高风险文件操作前先备份、严格遵循命名规范。


更重要的是,这些规则并非绑定于单一任务的补丁,而是跨任务的可迁移知识。


一次关于时间格式的纠错,能够提升后续所有涉及时间处理任务的稳定性。


第二条路径,是机会式策略优化(Opportunistic policy optimization)。


在用户处于不活跃状态时,系统会结合过程奖励模型(PRM)和LoRA进行基于梯度的强化学习(RL)权重更新。


前者如同战术上的快速止血,后者则是战略上的能力固化。


为了将这两者有机结合,MetaClaw引入了一个核心设计:支持集与查询集分离,以及严格的技能版本控制。


如果某条失败样本已经被新提取的规则修复,系统在强化学习阶段继续使用该样本就会导致「陈旧奖励污染」(stale reward contamination):模型会为一个已经解决的问题继续受罚。


MetaClaw的做法是为轨迹打上技能版本号,技能库升级后便清理旧版本的无效样本,只保留新技能生效后的数据进入RL训练。


这在本质上实现了「记忆」与「进化」的真正统一。


利用碎片时间训练

OMLS调度器


模型训练需要时间与算力,那么MetaClaw如何做到让用户几乎无感?


答案在于其设计的机会式元学习调度器(OMLS)。


OMLS专门监控三类信号:预设的睡眠时段、系统层面的键盘鼠标闲置状态、以及Google Calendar的日程占用情况。


只要触发任何一个表明用户暂时离开的信号,训练窗口就会自动打开。


训练器支持随时暂停与继续,这意味着即便是用户离开几分钟的零碎时间,也能被转化为AI持续训练的时间窗口。


过去,AI的升级往往是一次集中式的工程,需要停服、重训、切换版本再重新上线。


MetaClaw则将人类碎片化的空闲时间,变成了AI持续进化的微型车间。


此外,该框架采用代理架构与云端训练接口,不强制要求昂贵的本地GPU计算资源,可以直接对接现有的个人Agent和多种模型平台,支持一键部署与持续元学习。


补齐过程性知识

弱模型的数据跃升


这套框架的实际效果在测试数据中得到了直接验证。


论文团队构建了MetaClaw-Bench基准测试,包含934道题目,模拟了44个工作日的任务流,专门评估Agent在连续任务流中能否越用越强。


测试结果显示,在仅进行行为规则注入的情况下,被评测模型的相对准确率最高提升可达32.2%。


在体现真实执行力的端到端任务完成率上,被评测模型从2.0%提升至16.5%,实现了8.25倍的增长。


人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了


在另一项包含23个阶段的AutoResearchClaw自主研究流水线(涵盖文献综述、实验设计、代码生成、结果分析至论文写作)中,即便不进行权重训练而仅依赖技能注入,系统的综合鲁棒性也提升了18.3%,阶段重试率下降24.8%,迭代优化轮次减少了40%。


测试数据揭示了一个更关键的现象:MetaClaw首先是一个Agent持续进化框架,而且对弱底模驱动的Agent增益尤其明显


论文分析指出,较弱模型更缺少的是隐式的过程性知识:也就是那些具体的操作规则、执行习惯和格式纪律,而技能库恰恰把这些知识显式写了出来,因此仅靠skill注入,就能带来更大的准确率提升。


相比之下,GPT-5.2由于起点更高,可提升空间更小,更容易出现天花板效应。


但论文也强调,skills注入主要提升的是规则遵循和部分执行质量,不足以稳定解锁高强度任务中的端到端完成率。


真正让被评测模型实现了8.25倍增长的,是skills与权重级策略优化结合后的完整MetaClaw框架。


Agent进化时代的范式转移


当然,MetaClaw仍存在一定边界。


论文团队指出,目前的基准测试在模拟环境中进行,并不完全等同于复杂的生产环境;空闲窗口的检测也依赖于特定的用户系统配置。


但MetaClaw明确指向了一个范式转移的方向:Agent的生命周期正在从「训练完成后交付」向「交付之后继续生长」演进。


其GitHub仓库的持续更新(包括代理式接入、多客户端支持、跨会话记忆等工程化进展)表明,这套理念正在向可用的工具链快速转化。


把它放回行业坐标里看,意味就更大了。


对比近期普林斯顿团队提出的OpenClaw-RL(倾向于将所有交互信号直接用于训练),MetaClaw选择了「快规则加慢权重」的分层策略。


前者追求立即纠偏,后者追求长期固化,两者代表了对下一代Agent演进路径的不同工程思考。


决定未来模型能力上限的,将不再仅仅是出厂时的参数规模,更是其在真实使用场景中持续转化经验并自我迭代的闭环机制。


你的日历、你的键鼠状态、你的每一次离座,都有可能成为AI下一次能力升级的契机。


真正的智能演化,才刚刚在工作现场拉开序幕。


参考资料:

https://arxiv.org/abs/2603.17187 

https://github.com/aiming-lab/MetaClaw


文章来自于"新智元",作者 "元宇"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0