o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

8589点击 2025-08-13 16:17

GUI 智能体正以前所未有的速度崛起，有望彻底改变人机交互的方式。然而，这一领域的进展正面临瓶颈：现有数据集大多聚焦于 10 步以内的短程交互，且仅验证最终结果，无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。

长期以来，评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试，例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么，即其知识储备和在特定、孤立任务上的表现。然而，随着 Agent 的兴起，研究界的共识正在迅速转向一个更根本的问题：一个 LLM 及 Agent，如何创造更大的价值？

这种转变催生了新一代的动态、交互式基准，它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下，由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生，VeriGUI 具备两大核心特征突破——长链复杂性（Long-Chain Complexity）与子任务级可验证性（Subtask-Level Verifiability）。

VeriGUI 论文一经发布，迅速在 Hugging Face 荣登月榜第三！这一成就不仅证明了社区对 VeriGUI 价值的高度认可，也为通用智能代理的研究提供了一个更真实、更精细的试验场。

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

VeriGUI 数据集一览

01 背景痛点：简单任务已成“过去式”，复杂场景呼唤新基准

当前 GUI 智能体研究的核心痛点在于，现有数据集已无法满足前沿模型的评估需求：

短流程，浅交互：现有数据集的任务平均长度通常不足 10 步，智能体只需识别 UI 元素并执行相应动作即可完成，这远不能模拟真实世界中涉及条件判断和状态追踪的复杂工作流。

结果式验证，过程成“黑箱”：大多基准仅通过 URL 匹配等方式验证最终结果，当任务失败时，无法得知问题出在哪个环节，难以对智能体的规划能力进行针对性改进。

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异

02 三大技术亮点：为复杂任务而生

VeriGUI 通过三大技术亮点，精准地解决了上述难题：

1.4-8 子任务 × 百级操作的长链轨迹：VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务，完成全程需要数百次 GUI 操作。更具创新性的是，任何子任务都能作为独立的起点，从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。

2.子任务级验证信号，支持多策略探索：VeriGUI 提供子任务级别的精细化监督信号，它只验证每个子任务的目标是否达成，而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略，而不是死板地遵循预设步骤。

3.跨 Web & Desktop 的统一操作空间：数据集同时涵盖了网页和桌面两大主流平台，并定义了一套统一的 GUI 操作空间（如点击、输入、拖拽等），使智能体能够学习跨环境的通用交互能力。

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

VeriGUI 数据集的设计理念与核心：长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)

03 数据规模速览

基于已收集的 130 个 Web 任务轨迹，VeriGUI 展现了其卓越的复杂性：

任务总数： 130

子任务总数： 587

平均每任务步数： 214.4

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

VeriGUI 数据集的详细统计数据，包括任务领域分布（a）、子任务数量分布（b、c）、GUI 动作分布（d）、不同领域中的动作数量（e）以及总体步骤数量分布（f）

04 基准实验摘要：顶尖模型遭遇“滑铁卢”

我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试，测试框架涵盖了四种主流范式：

智能体框架： Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。

实验结果：结果令人震惊——在所有测试组合中，没有任何一个模型的平均任务成功率超过 10%。这清晰地揭示了现有模型在长时程规划、多步推理和复杂决策方面的普遍瓶颈，也印证了 VeriGUI 作为新一代高难度基准的价值。

o3 Gemini 都翻车？首个可验证长链 GUI 数据集 VeriGUI 重磅开源，探索通用 Agent 能力边界

不同类型的智能体在 VeriGUI 基准测试上 130 个网页任务中的成功率（SR）和任务完成率（CR）

05 科研价值：填补评测空白，赋能前沿研究

VeriGUI 的发布具有重要的科研价值：

填补评测空白：它为评估智能体在长时程、开放式 GUI 工作流中的表现提供了业界首个具备子任务级监督的基准。

赋能前沿研究：其细粒度的验证机制为智能体的规划、记忆、决策和容错等关键能力的研究提供了前所未有的精细化监督信号，有助于深入分析失败模式和规划瓶颈。

06 开源资源 & 快速上手

我们已将 VeriGUI 完全开源，希望能为社区的研究提供便利。

GitHub 代码仓：

https://github.com/VeriGUI-Team/VeriGUI

Hugging Face 数据集：

https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

您可以轻松通过 Datasets 库一键加载，快速开启您的研究。

如果您需要详细了解我们的实验过程和更多数据集构建细节，欢迎阅读我们的论文：

ArxivPaper : https://arxiv.org/abs/2508.04026

07 展望与合作计划

VeriGUI 项目仍在进行中。我们正积极扩充数据集，未来版本将包含更多强调交互性的 Web 任务（如表单填写、账户登录）以及大量复杂的桌面软件操作任务。

2077AI 开源基金会 致力于推动 AI 领域开放研究和合作。我们真诚地邀请学术界和工业界的同仁们与我们合作，共同建设 VeriGUI 生态，在我们的基准上提交新的 Baseline，一起探索通用智能体的未来。

文章来自于微信公众号“AI科技评论”，作者是“整数智能”。

关键词: AI , 模型训练 , VeriGUI , GUI数据集

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md