o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界
6038点击    2025-08-13 16:17

GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。


长期以来,评估 AI 模型能力的标准主要依赖于静态的、封闭世界的基准测试,例如 MMLU 或 GPQA。这些基准有效地衡量了一个模型“知道”什么,即其知识储备和在特定、孤立任务上的表现。然而,随着 Agent 的兴起,研究界的共识正在迅速转向一个更根本的问题:一个 LLM 及 Agent,如何创造更大的价值?


这种转变催生了新一代的动态、交互式基准,它们旨在评估 Agent 在复杂、开放和不可预测的环境中的实际执行能力。在这个背景下,由 2077AI 开源基金会牵头构建的全新基准 VeriGUI应运而生,VeriGUI 具备两大核心特征突破——长链复杂性 (Long-Chain Complexity) 与子任务级可验证性 (Subtask-Level Verifiability)。


VeriGUI 论文一经发布,迅速在 Hugging Face 荣登月榜第三!这一成就不仅证明了社区对 VeriGUI 价值的高度认可,也为通用智能代理的研究提供了一个更真实、更精细的试验场。


o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界


VeriGUI 数据集一览


01

背景痛点:简单任务已成“过去式”,复杂场景呼唤新基准


当前 GUI 智能体研究的核心痛点在于,现有数据集已无法满足前沿模型的评估需求:


  • 短流程,浅交互:现有数据集的任务平均长度通常不足 10 步,智能体只需识别 UI 元素并执行相应动作即可完成,这远不能模拟真实世界中涉及条件判断和状态追踪的复杂工作流。


  • 结果式验证,过程成“黑箱”:大多基准仅通过 URL 匹配等方式验证最终结果,当任务失败时,无法得知问题出在哪个环节,难以对智能体的规划能力进行针对性改进。


o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界


VeriGUI 与其他现有 GUI 数据集和基准测试平台在平台支持、步骤数、可验证性、人工演示、可执行性和交互方式上的差异


02

三大技术亮点:为复杂任务而生


VeriGUI 通过三大技术亮点,精准地解决了上述难题:


1.4-8 子任务 × 百级操作的长链轨迹:VeriGUI 中的每个任务都被分解为 4-8 个相互依赖的子任务,完成全程需要数百次 GUI 操作。更具创新性的是,任何子任务都能作为独立的起点,从而可以对智能体在任务不同阶段的规划、记忆和决策能力进行全面评估。


2.子任务级验证信号,支持多策略探索:VeriGUI 提供子任务级别的精细化监督信号,它只验证每个子任务的目标是否达成,而不限制智能体达成目标的具体方式。这极大地鼓励了智能体探索多样化的解决策略,而不是死板地遵循预设步骤。


3.跨 Web & Desktop 的统一操作空间:数据集同时涵盖了网页和桌面两大主流平台,并定义了一套统一的 GUI 操作空间(如点击、输入、拖拽等),使智能体能够学习跨环境的通用交互能力。


o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界


VeriGUI 数据集的设计理念与核心:长链条复杂性 (Long-Chain Complexity)和子任务级别可验证性 (Subtask-Level Verifiability)


03

数据规模速览


基于已收集的 130 个 Web 任务轨迹,VeriGUI 展现了其卓越的复杂性:


  • 任务总数: 130


  • 子任务总数: 587


  • 平均每任务步数: 214.4


o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界


VeriGUI 数据集的详细统计数据,包括任务领域分布(a)、子任务数量分布(b、c)、GUI 动作分布(d)、不同领域中的动作数量(e)以及总体步骤数量分布(f)


04

基准实验摘要:顶尖模型遭遇“滑铁卢”


我们在 VeriGUI 上对多种 SOTA 基础模型进行了全面测试,测试框架涵盖了四种主流范式:


  • 智能体框架: Deep Research Agent、Search Engine Agent、Browser-Use Agent 及 Multi-Agent System。


  • 实验结果:结果令人震惊——在所有测试组合中,没有任何一个模型的平均任务成功率超过 10%。这清晰地揭示了现有模型在长时程规划、多步推理和复杂决策方面的普遍瓶颈,也印证了 VeriGUI 作为新一代高难度基准的价值。


o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界


不同类型的智能体在 VeriGUI 基准测试上 130 个网页任务中的成功率(SR)和任务完成率(CR)


05

科研价值:填补评测空白,赋能前沿研究


VeriGUI 的发布具有重要的科研价值:


  • 填补评测空白:它为评估智能体在长时程、开放式 GUI 工作流中的表现提供了业界首个具备子任务级监督的基准。


  • 赋能前沿研究:其细粒度的验证机制为智能体的规划、记忆、决策和容错等关键能力的研究提供了前所未有的精细化监督信号,有助于深入分析失败模式和规划瓶颈。


06

开源资源 & 快速上手


我们已将 VeriGUI 完全开源,希望能为社区的研究提供便利。


  • GitHub 代码仓


  • https://github.com/VeriGUI-Team/VeriGUI


  • Hugging Face 数据集


  • https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI


您可以轻松通过 Datasets 库一键加载,快速开启您的研究。


如果您需要详细了解我们的实验过程和更多数据集构建细节,欢迎阅读我们的论文:


  • ArxivPaper : https://arxiv.org/abs/2508.04026


07

展望与合作计划


VeriGUI 项目仍在进行中。我们正积极扩充数据集,未来版本将包含更多强调交互性的 Web 任务(如表单填写、账户登录)以及大量复杂的桌面软件操作任务。


2077AI 开源基金会 致力于推动 AI 领域开放研究和合作。我们真诚地邀请学术界和工业界的同仁们与我们合作,共同建设 VeriGUI 生态,在我们的基准上提交新的 Baseline,一起探索通用智能体的未来。


文章来自于微信公众号“AI科技评论”,作者是“整数智能”。


关键词: AI , 模型训练 , VeriGUI , GUI数据集
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md