GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。
长期以来,评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试,例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么,即其知识储备和在特定、孤立任务上的表现。然而,随着 Agent 的兴起,研究界的共识正在迅速转向一个更根本的问题:一个 LLM 及 Agent,如何创造更大的价值?
这种转变催生了新一代的动态、交互式基准,它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下,由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生,VeriGUI 具备两大核心特征突破——长链复杂性 (Long-Chain Complexity) 与子任务级可验证性 (Subtask-Level Verifiability)。
VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三!这一成就不仅证明了社区对 VeriGUI 价值的高度认可,也为通用智能代理的研究提供了一个更真实、更精细的试验场。
VeriGUI 数据集一览
当前 GUI 智能体研究的核心痛点在于,现有数据集已无法满足前沿模型的评估需求:
VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异
VeriGUI 通过三大技术亮点,精准地解决了上述难题:
1.4-8 子任务 × 百级操作的长链轨迹:VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务,完成全程需要数百次 GUI 操作。更具创新性的是,任何子任务都能作为独立的起点,从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。
2.子任务级验证信号,支持多策略探索:VeriGUI 提供子任务级别的精细化监督信号,它只验证每个子任务的目标是否达成,而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略,而不是死板地遵循预设步骤。
3.跨 Web & Desktop 的统一操作空间:数据集同时涵盖了网页和桌面两大主流平台,并定义了一套统一的 GUI 操作空间(如点击、输入、拖拽等),使智能体能够学习跨环境的通用交互能力。
VeriGUI 数据集的设计理念与核心:长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)
基于已收集的 130 个 Web 任务轨迹,VeriGUI 展现了其卓越的复杂性:
VeriGUI 数据集的详细统计数据,包括任务领域分布(a)、子任务数量分布(b、c)、GUI 动作分布(d)、不同领域中的动作数量(e)以及总体步骤数量分布(f)
我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试,测试框架涵盖了四种主流范式:
不同类型的智能体在 VeriGUI 基准测试上 130 个网页任务中的成功率(SR)和任务完成率(CR)
VeriGUI 的发布具有重要的科研价值:
我们已将 VeriGUI 完全开源,希望能为社区的研究提供便利。
您可以轻松通过 Datasets 库一键加载,快速开启您的研究。
如果您需要详细了解我们的实验过程和更多数据集构建细节,欢迎阅读我们的论文:
VeriGUI 项目仍在进行中。我们正积极扩充数据集,未来版本将包含更多强调交互性的 Web 任务(如表单填写、账户登录)以及大量复杂的桌面软件操作任务。
2077AI 开源基金会 致力于推动 AI 领域开放研究和合作。我们真诚地邀请学术界和工业界的同仁们与我们合作,共同建设 VeriGUI 生态,在我们的基准上提交新的 Baseline,一起探索通用智能体的未来。
文章来自于微信公众号“AI科技评论”,作者是“整数智能”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md