字节的 Agent 产品来了。
4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent。与其他类似产品如 manus 一样,扣子空间采用了邀请码制。
平台上,用户可以选择精通各项技能的「通用实习生」,也可以选择行业的「领域专家」,通过与 AI 的互动完成工作任务。
图片来源:极客公园
就在前一天,火山引擎刚刚面向企业市场推出 OS Agent 解决方案及 AI 云原生推理套件,要帮企业更快、更省地构建和部署 Agent 应用。
虽然采用了邀请码制,但扣子显然不是走饥饿营销的路线。用户激活获得的邀请码后,创建并完成一个新任务即可获得 5 个邀请码,邀请码激活后,还可获得更多邀请资格,多创建多获得多邀请。
图片来源:极客公园
上线的第一时间,极客公园就上手实测了扣子空间的 Agent 功能。可以看到,在执行的三个任务中,制定旅游攻略和一周穿搭的任务顺利完成,但另一个专家助手的任务,却出现了 Python 脚本调用失败、 API 权限异常等 Bug,一个晚上都没能执行成功。
字节迈出了走向 Agent 时代的第一步,但距离完美好用,显然也还有很长一段距离。
扣子有探索和规划两种模式,如果想让它一步到位输出,可以选择探索模式;如果想亲自把控每个步骤,可以选择规划模式。
我试了一下用扣子的探索模式制定一份日本旅行攻略,跟 manus 用例展示里的提示词类似,来看看扣子做出的旅行方案怎么样:
图片来源:极客公园
做出这份旅行攻略的时间在 10 分钟以上,可以看到扣子将推理过程的思维链与搜索深度结合,践行「边想边搜」,在「已获取到日本关西和熊本的小众景点、海边景点以及适合三十岁生日庆祝的特别地点信息」后,扣子保存了「景点信息」,开始「边想边做」,从景点中筛选出合适的景点并规划出行程安排,在完成行程安排后,开始生成包含地图、景点介绍、必备日语短语及旅行提示的 html 旅行手册:
经过了 15 分钟以上的运行后,扣子给出了上面视频所示的一份旅行攻略,如上面所示,里面既有 5 天的行程安排,也给出了预算参考和旅行提示,还根据我的需求配备了个性化的策划节目,看了一下基本按照这个方案已经可以直接出行。
扣子还支持添加 MCP 扩展,AI agent 得能力边界被进一步扩展,接下来应该会有更多插件接入。
我接入了语音合成的工具,让它给我把文字攻略转成语音版本,agent 很快就输出了语音版本:
https://lf-bot-studio-plugin-resource.coze.cn/obj/bot-studio-platform-plugin-tos/artist/image/4c1277951b564bb194bbcd11894a52ad.mp3
这个声音听着很像豆包 app 默认的女声声音,虽然把符号那些也连带着一起读了,但这个功能是方便好用的。
我继续试了一个简单任务,「查一下北京未来一周的天气,根据天气推荐一周穿搭,制作相关图片」,不过第一次输入没有注明是穿搭图片,所以输出的只是天气表格,在增加这个需求后,扣子输出了两张穿搭图片,可能因为我没有告知性别,它干脆输出了一男一女的穿搭。
这个输出的穿搭图片里,人很真,穿搭也看着可借鉴。后续还可以继续让扣子接着补充完一周的图片链接。
MCP 被认为是未来 AI 生态的「标准 USB 接口」,3 月底,国外,OpenAl、谷歌、微软和亚马逊陆续宣布支持或深度集成 MCP 协议,国内,阿里云、腾讯云也陆续支持 MCP 服务部署与调用。
此外,除了标准的通用 Agent,扣子空间里还内置了一些专家 Agent。目前在扣子空间的使用页面上,有「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,前者可以提供调研问卷交叉分析、访谈纪要整理以及用户分析报告撰写服务,同时可结合产品问题设计新的调研问卷和访谈提纲,后者则是由华泰与扣子团队共同孵化的专家 Agent,每日跟踪复盘自选股和大盘客观情况,基于专业数据和框架提供观察思考。
两位「专家」都已经明码标价——限时免费,这个标注方式或许为之后收费埋下伏笔?
「用户研究专家」核心包含四大能力,单任务平均耗时只需 4 分钟:问卷数据分析;访谈纪要总结;调研问卷生成;访谈提纲生成。
「华泰 A 股观察助手」的单任务平均耗时要长一些,23 分钟。该助手称可以每天为用户发送专属的股票早报,也可以与用户 1 对 1 探讨股票观察:
最近股市动荡颇多,来看看华泰与扣子团队共同孵化的专家 Agent 能力如何。
这个专家执行任务中间有节点,可以看到它在进行了分析、总结、生成报告之后,在等待我确认是要开始任务还是修改任务。
虽然页面上显示 10 分钟未开始任务,任务会自动确认并开始,但这个执行并不稳定。在之后再次出现类似节点时,我没有在 10 分钟之内反应,10 分钟后任务并没有自动开始,而是就停留在节点,导致该任务时长拖到了几十分钟还没有结束。
我是 18 日晚上 21:59 左右开始的这个任务,但是直到第二天早上,这个任务也没有完成。回头翻看任务执行过程,有一些数据未能获取,还有 Python 脚本 fetch_kline_data.py 调用失败,「可能是由于 API 调用权限或数据源问题」。
看来即使是 AI,股市专家也不好做。
2025 年之前就被称为会是 agent 之年。
manus 在 3 月的火热,加速了大厂在这一领域的推进。而 manus 能在今年「横空出世」,也是基于 Claude 3.7 Sonnet 等新一代模型在工具调用和编程能力上有重大突破,为 Agent 发展奠定基础。
字节在 agent 赛道了再次展现了速度与执行力。17 日,豆包·深度思考模型正式发布,同步升级文生图模型 3.0、视觉理解模型,并推出 OS Agent 解决方案及 AI 云原生推理套件,为企业构建与部署 Agent 应用提供了强力支持。18 日,通用 agent 平台扣子空间即开启内测,定位于提供「通用实习生」和「领域专家」Agent,展现了字节从技术突破到产品落地的迅速节奏。
在 17 日的发布会上,火山引擎总裁谭待强调要做好 agent,技术上需要做好三个准备,包括更强的、支持多模态的模型,更好的架构和工具能够支持大模型操作数字和物理世界,以及通过 AI 云原生降低模型推理的成本和延迟。
扣子空间的内测开启,或说明字节已经基本做好了这三项准备。
豆包 1.5·深度思考模型采用 200B 参数、20B 激活参数的 MoE 架构,支持视觉推理和「边想边搜」,能在数学推理(AIME 2024)、编程竞赛(Codeforces)和科学推理(GPQA)等任务中媲美 OpenAI o3-mini,达到全球第一梯队。其 20 毫秒的极低延迟和多模态能力,使其能处理复杂任务,如基于照片推测地理位置或解读企业项目流程图。
OS Agent 方案通过 AI 云原生组件(如 Sandbox)为企业提供了模块化的开发支持,显著降低了 Agent 应用的开发门槛。火山引擎还支持 MCP 协议,谭待认为,类似互联网早期 HTML 和 HTTP 的统一协议将加速 Agent 生态发展,降低开发者适配成本,推动行业标准化。
火山引擎正在通过垂直类 Agent(如 Data Agent)、通用 Agent 开发工具(如 OS Agent)及 AI 云原生布局,全面推进 Agent 生态建设。
谭待提到,Agent 是 AI 为各行各业带来变革的必经之路,需具备深度思考模型支持的反思和规划能力,才能完成专业度高、耗时长的复杂任务。
不过,当前市场对 Agent 的定义较为混乱,部分厂商宣称开发的「数千个 Agent」可能仅为初级(L1)水平,仅能处理简单任务。未来,Agent 或将像自动驾驶分级(L1 至 L4)一样明确标准,真正落地的 Agent 需达到 L2++及以上级别。接下来,Agent 的定义和应用场景将更加清晰。
可以看到,字节的 Agent 战略以技术突破、生态协同和成本优势为核心,展现了「大厂碾压」的实力。
文章来自微信公众号 “ 极客公园 ”,作者 连冉
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0