挤爆字节服务器的Agent到底啥水平？一手实测来了

4841点击 2025-04-23 15:28

“字节版Manus”有多能打？量子位实测在此。

△扣子智能体生成的活动介绍网页

我们用光了一天的对话额度，考验了扣子空间（Coze Space）的信息整理、任务执行、工具调用等多项技能。

结果，仍处在早期测试中的扣子空间整体表现已经相当惊艳，在自主任务规划和资料搜集方面表现不错，已经具备解决很多真实任务的潜力。

不过在指令遵循方面，还是比较“有自己的想法”。

挤爆字节服务器的Agent到底啥水平？一手实测来了

简单介绍一下，扣子空间是字节在刚刚过去的周末推出的智能体协作系统，官方主打“你和AI Agent协同办公的最佳场所”。

由于放出来的demo效果惊艳，过去几天里还出现了挤爆服务器的场面。

挤爆字节服务器的Agent到底啥水平？一手实测来了

而第一波拿到邀请码的幸运儿，在体验后也第一时间分享了使用感受：

对比智能体确实是一个大飞跃。

挤爆字节服务器的Agent到底啥水平？一手实测来了

更适合用来分析报告，主要作用是帮助用户搭起整体框架。

挤爆字节服务器的Agent到底啥水平？一手实测来了

当然，作为幸运儿之一，我们也赶紧进行了一波实测。

有脑有手的通用智能体

扣子平台的通用智能体，分成了探索和规划两种模式，官方的介绍是这样的：

挤爆字节服务器的Agent到底啥水平？一手实测来了

实际用下来的话，探索模式更注重效率，而规划模式则会对任务进行详细拆分，条理更加清晰。

自动整理搜集信息，一句话制作网页/PPT

先来看探索模式，我们让它整理了一下波音747系列飞机的发展历程。

可以看到，智能体根据给出的话题自行扩展延伸了许多搜索词并执行了检索，最后形成了一份文字报告。

挤爆字节服务器的Agent到底啥水平？一手实测来了

利用整理好的资料，可以直接制作出一个网页（或者PPT也可以），页面包含了比较丰富的内容，排布简洁，美观性也说得过去。

挤爆字节服务器的Agent到底啥水平？一手实测来了

并且除了文字内容，生成网页时智能体还补充了产量统计图和关键时间线。

挤爆字节服务器的Agent到底啥水平？一手实测来了

有脑还有手，自主规划执行任务

在规划模式下，扣子智能体不仅会整理资料，还支持在虚拟沙盒环境中操纵电脑、浏览网页，执行订票等操作。

比如我们让它帮忙订一张明天（23日）下午从北京到上海的高铁票。

比较有意思的是，智能体一开始的动作是搜索高铁票该怎么订，不清楚是模型自己真的不知道，还是这里强制设定了检索过程，但总之，如果真遇到不会的技能，通过检索来弥补也不失为一种策略。

挤爆字节服务器的Agent到底啥水平？一手实测来了

12306平台需要登录才能进行订票，智能体能够准确识别到这种状况，并提示我们手动接管。

挤爆字节服务器的Agent到底啥水平？一手实测来了

不过，可能是沙盒环境受到了限制，在执行检索之后页面并未显示结果，因此整个流程未能顺利完成。

挤爆字节服务器的Agent到底啥水平？一手实测来了

但从智能体的操作过程来看，网页信息识别和规划执行能力已经很不错了。

接入MCP，智能体不再“孤军奋战”

除此之外，扣子也支持MCP协议，并接入了飞书文档、GitHub、MySQL数据库、天气、地图等一系列MCP应用。

挤爆字节服务器的Agent到底啥水平？一手实测来了

于是结合MCP，我们来整个大活。

上周，量子位中国AIGC产业峰会2025成功举行，我们将其会议流程和嘉宾信息整理到了一份文档当中，要求智能体将这些材料整理出一份网页版会议指南。

并且还调用了地图、天气和语音合成三个MCP插件，在网页中加入天气预报、交通指南和嘉宾介绍语音播报。

挤爆字节服务器的Agent到底啥水平？一手实测来了

可以看到，智能体首先利用工具从文档中提取出文本，然后通过MCP协议调取了天气、地图等信息。

挤爆字节服务器的Agent到底啥水平？一手实测来了

由于任务比较复杂，制作耗时也比较长，第一版成品长这样：

挤爆字节服务器的Agent到底啥水平？一手实测来了

这个版本，要求的内容都有呈现，但是活动流程没有遵循要求的格式，天气预报的日期也不对。

所以我们针对这两点要求智能体进行修改，修改的过程没有一步到位，而是经过了多轮调整。

以及到后面修改的过程才发现，扣子智能体一开始偷懒并没有合成嘉宾介绍的语音，只是在网页里放了按钮，单独指出之后才开始合成。

不过最终还是得到了符合期待的页面，该有的内容都正常展现，滑动和点击查看详情的功能都成功实现，合成的音频也能正常播放。

挤爆字节服务器的Agent到底啥水平？一手实测来了

虽然整体经历了不短的时间，但对于一个完全不懂网页制作的用户而言，扣子智能体已经很好地解决了工具有无的问题。

在时间上，一个可以改进的方向是让可以并行进行的任务同时进行，比如这个任务当中的语音合成实际上是独立于网页设计的，而智能体目前采用的是串行方式，带来了不少的额外耗时。

总结一下，作为一个通用智能体，扣子智能体的任务规划比较合理，资料搜集能力也表现不错，不过在指令遵循方面，还是比较“有自己的想法”。

当然作为通用智能体，优先考量是提升技能的丰富度，尽可能覆盖更多的任务，所以在具体任务细节上，也还有不少提升空间。

更懂行的专家智能体

所以，在通用Agent之外，扣子空间还提供了「专家模式」。

Beta测试版首页，目前有两个专家Agent：

用户研究专家：模型学习了字节资深用研专家、产品经理等分享的用研工作技巧；
华泰A股观察助手：扣子团队与华泰证券联合孵化的Agent，让模型学习了如何分析上市公司和发展潜力等专业知识。

挤爆字节服务器的Agent到底啥水平？一手实测来了

我们实测下来发现，吸收了更多私人数据和第三方数据的专家Agent，在实用性方面确实大有提升，尤其在面对复杂任务过程中易出错的问题，它总是能自主发现错误并不断尝试更正。

不过由于涉及的领域确实比较专业，任务耗时也大大增加，类似股票分析的任务往往需要运行几十分钟。

以下为具体实测过程。

0产品经验也能做出完整用户调研

假如有一个新入行的产品经理，想要设计一个北京地区的户外活动APP，需要对用户需求进行调研。

尽管没有工作经验，也可以使用简单描述来生成一份用户访谈提纲。

挤爆字节服务器的Agent到底啥水平？一手实测来了

实测不到1分钟，这个Agent就生成了一份可下载的Markdown文档，10个问题基本覆盖了我们想要调研的需求。

挤爆字节服务器的Agent到底啥水平？一手实测来了

然后我们又继续在输入框中下达新指令：

再帮我生成一份调研问卷。

从思考过程可以看到，面对一个比较模糊的需求，它能通过自主规划（设计约30个问题的调研问卷）进一步明确任务。

挤爆字节服务器的Agent到底啥水平？一手实测来了

而且评估其生成效果，从一名资深户外运动爱好者的角度来看，这份调研报告可谓非常完整——

7个大类、30个小问题，从用户基本信息到户外运动参与情况、活动信息与获取等等，均考虑到了。

挤爆字节服务器的Agent到底啥水平？一手实测来了

接下来，鉴于我们目前缺少真实问卷结果，所以又给它扔了个“麻烦”：

能直接帮我生成一份虚拟完整用户调研数据，并最终生成一份用户分析报告吗？

大约几分钟后，这个Agent自己生成了一份虚拟用户数据：

挤爆字节服务器的Agent到底啥水平？一手实测来了

横向标准项需要长时间拖动才能看完整，竖向共有100条数据：

挤爆字节服务器的Agent到底啥水平？一手实测来了

当然，过程中Agent也自己发现了错误，并多次尝试更正。

挤爆字节服务器的Agent到底啥水平？一手实测来了

最终，基于虚拟数据，Agent确实生成了一份可下载的完整用户画像报告。

挤爆字节服务器的Agent到底啥水平？一手实测来了

整体而言，这个用户研究Agent具备问卷数据分析、访谈纪要总结、调研问卷生成、访谈提纲生成这四大能力，即使零产品经验也能通过持续对话实现自己的调研需求。

挤爆字节服务器的Agent到底啥水平？一手实测来了

每天都能收到专属股票早报

而另一个股票专家Agent，由于涉及的领域比较复杂，官网显示平均任务耗时为42分钟。

挤爆字节服务器的Agent到底啥水平？一手实测来了

能做的事儿包括下面这些：

挤爆字节服务器的Agent到底啥水平？一手实测来了

这里我们简单测试了其早报生成功能。

支持选定3支关注的股票（这里就不具体展示选了哪些了），以及三个关注的板块，然后给出当日A股早报。

挤爆字节服务器的Agent到底啥水平？一手实测来了

有意思的是，相比之前的用户调研Agent，这个智能体则更加谨慎了，过程中还需要用户手动确认其阶段性完成情况，然后才继续执行。

挤爆字节服务器的Agent到底啥水平？一手实测来了

而且整个过程搜集了大量数据：

挤爆字节服务器的Agent到底啥水平？一手实测来了

不过比较遗憾的是，截至发稿前（已经跑了一个多小时），可能由于服务器资源问题，暂时没有跑出最终结果。

挤爆字节服务器的Agent到底啥水平？一手实测来了

然而，从其他网友对该智能体的测试来看，据称效果惊艳。

（股票功能）实测蛮惊艳的

挤爆字节服务器的Agent到底啥水平？一手实测来了

小结一下，相比通用Agent，专家Agent在实用性方面确实更胜一筹。

就产品的初步设计来看，和“扣子空间”这个名字相呼应，扣子团队希望打造一个“通用Agent和专家Agent协作的系统”。

不过按照扣子团队的长期设想，最终目标则还是打造一个开放的Agent系统——

当用户提出需求时，系统能自动调度最合适的一位或多位专家Agent协同完成任务。

而抛开长远不谈，仅就当下这个测试版扣子空间而言，得益于它在自主规划和任务驱动方面的加强，对于绝大多数实际情况，它已经是一个可以上手、能用的Agent系统了。

One More Thing

这一次，字节在扣子空间上还搞了一波“裂变玩法”。

我们实测过程中发现，在执行完第一个任务之后，还可以得到五个邀请码。

挤爆字节服务器的Agent到底啥水平？一手实测来了

并且当五个邀请码全部用完后，还能获得更多邀请资格。

所以相比其他家那种完全封闭的测试，扣子空间的体验资格也更容易获得。

挤爆字节服务器的Agent到底啥水平？一手实测来了

最后，有获得邀请码的童鞋来说说你的使用体验吗？

文章来自于“量子位”，作者“克雷西一水”。

挤爆字节服务器的Agent到底啥水平？一手实测来了

关键词: AI , Agent , 扣子空间 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md