微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

10577点击 2024-09-18 22:04

测试结果显示出想开发出能与人类计算机操作能力相仿的AI，还存在很大挑战。

智东西9月14日消息，据VentureBeat昨日报道，微软公布了一项名为“Windows Agent Arena（WAA）”的开创性基准测试。该测试用于在Windows操作环境中对AI Agent性能进行评估，旨在为AI Agent开发提速。

该论文发表在arXiv.org上。研究人员写道：“大语言模型在AI Agent领域显示出巨大的潜力，能够在需要规划和推理的多模态任务中提升人类生产力和软件的可用性。”同时还补充道：“然而，在真实环境中衡量AI Agent性能依然是一个挑战。”

论文链接：https://arxiv.org/pdf/2409.08264

WAA的创新点在于，它能够在微软Azure云科技中的多个虚拟机上进行并行测试，在短短20分钟内就可完成全面的基准评估。

此外，微软还将多模态AI Agent Navi引入测试，以展示WAA的能力。经检验，Navi在WAA测试中任务完成的成功率为19.5%，而人类的成功率是74.5%。

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

▲Windows Agent Arena（来源：Windows Agent Arena页面）

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

Windows Agent Arena提供了一个可复现测试环境，其中AI Agent与常见的Windows应用程序、网络浏览器和系统工具进行交互，模拟人类用户体验，继而帮助开发者评估和优化AI Agent的能力。

微软的研究人员写道，在真实环境中测试Agent性能仍然是一个挑战，这是因为大多数基准测试仅限于特定模式或领域（例如，纯文本、Web导航、问答、编码）；另外鉴于任务的多步骤顺序性质，完整的基准评估很慢（大约几天时间）。

WAA的一个关键创新是能够在微软Azure云科技中的多个虚拟机上进行并行测试。论文解释称：“我们的基准测试是可扩展的，可以在Azure中无缝并行处理，在短短20分钟内就可完成全面的基准评估。”与传统可能需要数天的顺序测试相比，这极大地加快了AI Agent开发周期。

该测试包含了154个不同任务，涵盖编辑文档和电子表格（LibreOffice Calc/Writer）、浏览互联网（微软Edge、Google Chrome）、Windows系统任务（文件资源管理器、设置）、编码（Visual Studio Code）、观看视频（VLC播放器）和实用功能（记事本、时钟、画图）。

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

▲涵盖的测试具体任务显示（图源：Windows Agent Arena页面）

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

Windows Agent Arena项目页面显示：“为了展示WAA的能力，我们还引入了一种新的多模态AI Agent Navi。”

测试结果显示，Navi在WAA中的成功率为19.5%，而人类的成功率是74.5%。这说明想开发出能与人类计算机操作能力相仿的AI，还存在很大挑战。

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

▲Navi在任务期间的推理过程和屏幕解析的分步示例（图源：Windows Agent Arena页面）

这项研究的主要作者Rogerio Bonatti说：“Windows Agent Arena为实现AI Agent的突破，提供了一个现实而全面的环境。同时，我们也希望通过AWW开源，来推进整个AI社区在这一关键领域的研究。”

此外，微软对几种最先进的视觉语言模型Agent配置都进行了基准测试，发现与人类行为相比所有现有模型的性能都较低，并且模型之间性能也存在很大差异。

WAA的发布正值科技巨头之间竞争加剧之际，他们正在开发功能更强大的AI Agent，以应对复杂的计算机任务。

微软对Windows环境的关注可能会使其在企业场景中保持主导优势。

三、开发AI Agent时需平衡创新和伦理

像Navi这样的AI Agent带来的潜在好处是显著的，但开发此类技术也引发了重要的伦理考量。

随着AI Agent变得越来越复杂，它们将更全面地访问用户的数字生活，可能会在各种应用程序中与用户的敏感个人信息、专业信息产生接触。

AI Agent在Windows环境中具有自由操作的能力，比如访问文件、发送电子邮件或修改系统设置等等，这都显示出采取强大的隐私保护措施的必要性。

在赋予AI有效协助用户的能力与维护用户隐私、控制用户数字领域之间，需要找到一个微妙的平衡点。

此外，随着AI Agent越来越能够模仿人类与计算机系统的交互，还出现了有关透明度和问责制的问题。

当用户与AI交互时，特别是在专业或者高风险场景中，可能需要被明确告知，因此明确用户同意协议也至关重要。

结语：开源WAA也需提升风险防控意识

微软开源了Windows Agent Arena，朝着提升协作开发和审查技术迈出积极一步。

但与此同时，可能会有人使用该测试去开发具有恶意的AI Agent，这意味着人们需要对此领域保持必要警惕和监管。

随着WAA为开发功能更强大的AI Agent加速，研究人员、伦理学家、政策制定者和公众就这些技术的影响进行持续讨论，将至关重要。

文章来源于“智东西”

微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期

关键词: AI , 智能体 , Agent , AI评测

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md