打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条
6275点击    2026-05-31 11:42

大模型从“回答问题”走向“完成任务”,正在面临以下瓶颈:


面向Claw Agents的数据、训练和评测都比传统environment training更难。


为了解决该问题,中国人民大学、至知研究院等最新提出ClawGym——


一个面向Claw Agents的一体化框架,系统连接数据合成、模型训练与可靠评测。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


ClawGym包含三个核心部分:


  • ClawGym-SynData:首个面向Claw Agents的大规模合成数据集,包含13.5K个可执行任务。
  • ClawGym-Agents:基于OpenClaw黑盒执行轨迹训练Claw Agent,并探索沙盒并行强化学习。
  • ClawGym-Bench:包含200个高质量任务,覆盖六类工作区场景,用于诊断Agent的真实执行能力。


目前,团队已经开源ClawGym的五项核心资源,覆盖评测、模型与训练流程。


具体则包括ClawGym-Bench评测数据、评测代码、ClawGym-Agents模型检查点、训练数据和训练代码。


团队表示,这是目前较为全面的OpenClaw训练与评测资源。


为什么Claw Agent需要新的框架?


随着OpenClaw等Personal Agent环境的发展,大模型正在从“回答问题”走向“完成任务”。


但相比传统的文本推理、网页浏览或简单工具调用,Claw-style环境提出了一个更复杂的问题:


如何让Agent在一个真实、状态化、可交互的工作区中持续行动,并最终完成用户交代的任务


在这类环境中,Agent面对的不再是一道静态题目,也不只是一个简单的工具接口,而是一个由文件、目录、脚本、表格、配置、日志和外部工具共同组成的复杂工作区。


它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告,并根据环境反馈不断调整自己的行动。


更重要的是,Claw-style环境本质上是一个高度交互的执行脚手架


Agent的每一步操作都会改变工作区状态,后续决策又依赖这些中间状态。


任务是否完成,不取决于Agent是否说“我完成了”,而取决于最终工作区是否真的被正确更新:文件是否生成、路径是否正确、表格计算是否准确、输出格式是否满足要求、多个文件之间是否保持一致。


也正因为如此,面向Claw Agents的数据、训练和评测都比传统environment training更难。


现有工作大多关注静态问答、网页任务、代码修复或特定工具调用场景,而针对这种开放式、长程、多产物、可验证的个人工作区环境,系统性的任务构造、轨迹采集、模型训练和可靠评测仍然相对缺乏。


正是在这样的背景下,团队推出了ClawGym


它的目标不是单独提供一个任务集或一个训练脚本,而是为Claw-style Personal Agents构建从任务生成、环境执行、轨迹学习到能力诊断的完整闭环。


具体而言,团队认为Claw-style任务更接近真实办公场景:


用户给出目标,Agent需要在本地工作区中持续操作,直到最终状态满足要求。


而这带来几个关键挑战。


  • 任务难构造:Claw-style任务需要覆盖个性化需求、真实工作流和可执行操作,不能只是简单生成一个prompt。
  • 轨迹难采集:OpenClaw这类系统高度封装,需要依赖黑盒rollout获取复杂长程交互轨迹,并从执行日志中还原高质量训练轨迹。
  • 训练难稳定:尤其在强化学习阶段,模型需要在大量独立沙盒中并发rollout,训练成本高,稳定性也更难保证。
  • 奖励难定义:任务成功不取决于文本相似度,而是最终工作区状态是否正确,需要验证文件、结构、数值和多维产物质量。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


ClawGym-SynData:构建可执行、可验证的工作区任务


ClawGym-SynData是整个框架的数据基础,包含13.5K个可执行任务


其构建流程包括四个环节:


任务生成→资源准备→验证设计→质量评估


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


双路线任务合成


为了让ClawGym中的任务既贴近真实用户需求,又能够在工作区中被真正执行和验证,ClawGym采用了两条互补的任务合成路线:persona-driven top-down synthesis和skill-grounded bottom-up synthesis。


第一条路线是persona-driven top-down synthesis,也就是从“用户想做什么”出发生成任务。


ClawGym首先构建不同的用户画像、工作场景和原子操作组合,例如文件整理、数据分析、报告生成、配置修改等。随后,模型会基于这些要素生成具体任务指令,使任务不再只是抽象 prompt,而是更接近真实用户在办公、开发、数据处理等场景中的实际需求。


第二条路线是skill-grounded bottom-up synthesis,也就是从“系统能做什么”出发生成任务。


ClawGym会从OpenClaw skills中提取可复用的工具能力,并通过技能标注、过滤和组合,判断哪些skills适合用于任务合成。这一路线保证生成的任务不是空泛的想象,而是与OpenClaw的实际工具能力和执行边界对齐,能够真正落到可运行的工作区操作中。


两条路线的作用互为补充。


前者提供用户意图、场景覆盖和任务多样性,让任务更“真实”;后者提供工具能力、执行grounding和可操作性,让任务更“可做”。


二者结合后,ClawGym能够生成一批既符合真实工作流,又能在环境中执行、检查和评分的Claw-style tasks。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


自动生成Mock Workspace


Claw-style任务不能只有指令,还需要一个可操作的初始工作区。


只有当任务所需的文件、字段、数据和目录结构真实存在时,Agent才能在环境中执行操作,而不是停留在文本回答层面。


因此,ClawGym会为每个任务自动生成轻量级mock workspace,包括Markdown、JSON、CSV、YAML、配置文件、日志和原始记录。这些资源会围绕任务目标构造,提供执行过程中需要读取、分析、修改或引用的内容。


通过这种方式,每个任务都拥有明确的初始状态和可控的数据条件。Agent需要基于工作区中的真实文件完成任务,最终结果也可以根据文件路径、字段、数值、约束和产物内容进行稳定验证。


混合验证机制


在验证设计上,ClawGym采用code-based verification + rubric-based verification,同时覆盖客观正确性和主观质量要求。


  • Code-based verification负责检查可以用程序确定判断的部分,例如文件是否生成在正确路径下,JSON/CSV schema是否符合要求,数值计算、过滤规则、排序逻辑和输入输出一致性是否正确。
  • Rubric-based verification则用于评估更难完全用代码刻画的质量要求,例如报告是否清晰,摘要是否忠实,表达是否专业,内容是否完整,以及产物是否符合用户意图。


二者结合后,ClawGym不仅能判断Agent有没有完成任务,还能进一步判断它是否真正做对、做好。


这使任务结果不只是“看起来合理”,而是能够经得起结构、内容和质量层面的验证。


ClawGym-Agents:从真实执行轨迹中训练Agent


有了任务数据之后,ClawGym通过OpenClaw black-box rollout收集真实交互轨迹,而不是重新实现一个简化agent loop。


这样可以更真实地保留Agent在OpenClaw中的行为模式,包括上下文管理、工具调用和环境反馈。


轨迹收集后,ClawGym会进行聚合、清洗和筛选:恢复完整多轮轨迹,去除heartbeat、cron等无关系统提示,过滤异常轨迹,并根据verifier score保留高质量样本。


最终筛选出的轨迹平均包含13.00轮交互、18.67K tokens、15.82次工具调用和3.25种工具类型


这说明,训练数据不是短回复或单步工具调用,而是包含规划、文件检查、工具执行、环境反馈和中间调整的多轮agentic supervision。


基于这些轨迹,ClawGym对Qwen3系列模型进行multi-turn SFT,得到ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B。训练时对环境反馈进行loss masking,使模型重点学习自身生成的推理、决策和工具调用。


此外,ClawGym还探索了sandbox-parallel RL。每个任务在独立sandbox 中运行,并直接使用code verifier提供outcome reward。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


实验显示,无论从原始Qwen3-4B-2507-Instruct 出发,还是从经过SFT的ClawGym-30B-A3B出发,RL都能带来进一步提升。


ClawGym-Bench:评测Agent是否真的会做事


ClawGym-Bench由200个经过严格筛选的任务组成,用于评估Claw Agent在真实工作区中的执行能力。


相比用于训练的数据,ClawGym-Bench对任务质量和评测可靠性提出了更高要求。


它不仅要求任务本身真实、可执行,还要求评测结果能够稳定反映模型之间的能力差异。


为此,ClawGym-Bench采用难度感知筛选,优先保留那些既具有挑战性、又能区分不同模型表现的任务。


同时,每个候选任务都会经过“人类-大模型协同审查”:前沿大模型先对任务指令、输入资源、验证器和评分标准进行诊断式检查,识别潜在歧义、不可执行要求或验证漏洞,再由人类审查者完成最终确认。


在任务覆盖上,ClawGym-Bench 涵盖六类典型工作区场景:


  • 生产力与协作
  • 系统与自动化
  • 分析与推理
  • 内容与领域支持
  • 规划与知识管理
  • 软件开发


因此,ClawGym-Bench的作用不只是给模型一个最终分数。


它还可以进一步分析模型在不同工作区能力上的表现差异,例如是否能正确理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求,并生成符合用户需求的最终产物。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


实验结果:合成数据显著提升执行能力


实验表明,ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务中的表现。


经过训练后,ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上分别达到47.73、50.24和56.82,均超过对应的基座模型。


其中,ClawGym-30B-A3B还超过了规模更大的Qwen3-235B-A23B,说明高质量Agent交互数据能够在一定程度上弥补模型规模不足。


ClawGym-Bench也展现出良好的区分能力。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81,形成清晰的能力梯度。


而且,ClawGym-Agents只使用ClawGym-SynData训练,却能在外部基准PinchBench上取得明显提升。


其中,ClawGym-30B-A3B达到86.00,说明模型学到的并不是合成任务模板,而是可迁移的工作区执行能力。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


行为分析:难点不只是“会调用工具”


Claw Agent面对的是一个持续变化的用户工作区。已有文件、目录结构、脚本输出、中间状态和最终产物,都会影响任务是否真正完成。


因此,关键能力不是简单地“会调用工具”,而是能否把工作区一步步更新到满足用户要求的最终状态。


这主要体现在三点。


从工具调用到工作流组织。 Claw Agent需要把文件探索、信息读取、脚本执行、结果检查和产物验证串联成完整流程,而不是完成孤立的工具调用。


从单步执行到长程恢复。 在真实工作区中,路径错误、文件缺失、命令失败很常见。强模型能够把错误作为反馈继续推进任务,弱模型则容易在连续错误中偏离目标。


从生成答案到验证产物。 Claw Agent的输出不是一段文本,而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则和跨文件一致性等细粒度要求。


因此,Claw-style任务考察的不是单一语言能力,也不是简单工具调用能力,而是Agent在状态化工作区中持续执行、恢复错误并保证最终产物正确的能力。


打破Agent训练瓶颈!人大&至知研究院开源Claw Agent数据+训练+评测全链条


小结一下


ClawGym的核心价值在于,它将Claw Agent的数据构建、能力训练和可靠评测连接成一个完整闭环。


  • ClawGym-SynData提供大规模、可执行、可验证的工作区任务;
  • ClawGym-Agents从OpenClaw黑盒执行轨迹中学习如何在环境中行动;
  • ClawGym-Bench则用于评估Agent是否真正完成了工作区任务。


ClawGym关注的不只是模型能否“说出答案”,而是模型能否在工作区中完成可检查、可验证的任务。


对于Personal Agent来说,这正是从对话能力走向执行能力的关键一步。


关于至知创新研究院。它立足人工智能前沿,是由深厚产业智慧驱动的新型科研组织,核心破解尖端研究与规模化产业落地的产学研难题。他们以原创性底层算法与下一代AI架构攻坚为基石,聚焦前沿技术突破、高复杂度场景落地、全球产学研生态协同三大核心目标。


至知以产业一线核心瓶颈锚定研究方向,为顶尖科研人才提供纯粹的探索环境。他们深耕AI+科学计算、前沿科技等核心垂直领域,以卓越的学术能力与极致的工程精神,深耕技术本源,释放AI全维度深层价值。


项目主页:https://github.com/ClawGym


文章来自于微信公众号 "量子位",作者 "量子位"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0