刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

10694点击 2025-03-12 10:12

就在刚刚，OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API，帮助开发者更容易创建能自动完成任务的 AI Agents（智能体）。

OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础，但开发者在构建生产级 Agent 时，还是会遇到不少难题。

为此，他们今天特地发布了全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。

省流版如下：

Responses API：结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口

Web 搜索工具（Web Search Tool）：让模型访问互联网获取最新信息的工具

文件搜索工具（File Search Tool）：从大量文档中检索相关信息的增强工具

计算机使用工具（Computer Use Tool）：由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具，让 AI 能像人一样操作电脑界面

Agents SDK：基于 Swarm 框架升级，简化多 Agent 工作流程编排的开源框架

具体来说，Responses API 结合了 Chat Completions API（主要用来生成对话回复）的简洁性和 Assistants API（能让 AI 调用外部功能，比如查资料、操作东西）的工具使用能力，成为构建 Agent 应用的新基础。

开发者只需调用一次 API ，即可利用多种工具和多轮模型交互解决复杂任务。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

在内置工具方面，Web 搜索工具支持 GPT-4o 和 GPT-4o-mini 模型获取网络最新信息并提供清晰的引用。在 SimpleQA 基准测试中，这两款模型的搜索预览版分别拿下了 90% 和 88% 的亮眼准确率。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

升级后的文件搜索工具更是给力，支持多种文件格式，还能优化查询、过滤元数据、自定义排序，让开发者从堆积如山的文档中迅速找到关键信息。

计算机使用工具则由与 Operator 相同的 Computer-Using Agent (CUA)模型提供支持，可捕获模型生成的鼠标和键盘操作，在 OSWorld、WebArena 和 WebVoyager 基准测试中分别取得 38.1%、58.1% 和 87% 的成绩。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

OpenAI 还推出了开源的 Agents SDK，专门用来简化多 Agent 工作流程的编排。

相比去年发布的实验性 Swarm 框架，这个全新 SDK 有了显著的改进。

提供易于配置的 LLM 与内置工具集成、Agent 间智能交接控制、可配置安全检查以及可视化追踪等功能，适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经使用这些新工具做出了实打实的成果。

在官网列举的案例中，Hebbia 利用 Web 搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解；Navan 将文件搜索工具应用于 AI 旅行 Agent 中，为用户提供精准的旅行政策答案。

Unify 和 Luminai 则使用计算机使用工具自动化复杂操作流程，特别是对缺乏 API 的传统系统；Box 利用 Agents SDK 快速构建和部署了企业数据搜索应用。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

产品发布后，网友也在 OpenAI 的评论区玩起了梗。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

还有网友专门留言感谢 Manus AI。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

在今天凌晨的现场直播中，演示人员也通过一个「个人造型师」 Agent 的应用案例，向我们展示了这些新工具的能耐。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

举个例子，他们先用文件搜索工具翻看了用户（比如「Elon」和「Kevin」）的服装喜好数据，系统轻松整理出这些人的穿衣风格。

接着结合 Web 搜索工具，系统能够基于用户所在位置（演示中使用了「东京」作为 Kevin 的位置）搜索附近的相关商店，为 Kevin 推荐了东京的 Patagonia 店铺。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

然后，计算机使用工具（Computer Use Tool）登场，自动操作网页界面，为 Kevin 买下一件黑色 Patagonia 夹克，整个过程行云流水——点击、拖拽、填信息，宛如真人在操控。

最后还演示了 Agent 间的交接功能。Agent 将退货请求无缝交接给客服 Agent，后者能够调用获取密码和提交退款请求等功能，帮助用户完成 Patagonia 夹克的退货。

可以说，凭借新工具和 API 的默契配合，这些 AI Agent 不仅能读懂用户喜好、获取实时资讯、执行复杂操作，还能在不同任务间灵活切换，完美覆盖从推荐到购买再到退货的全流程。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

至于现有 API 的安排，OpenAI 表示会继续全力支持 Chat Completions API，为不需要内置工具的开发者提供新模型和功能。

而基于 Assistants API 测试版的反馈，他们已经把关键改进整合到 Responses API 中，计划在功能对齐后，于 2026 年中期正式停用 Assistants API，同时会提供详细的迁移指南。

新工具的定价也已经新鲜出炉。

Web 搜索每千次查询分别为 GPT-4o 搜索 30 美元和 GPT-4o-mini 搜索 25 美元；文件搜索每千次查询 2.5 美元，文件存储 0.1 美元/GB/天（首 GB 免费）；计算机使用工具则按每输入百万 token/3 美元和每输出百万 token/12 美元计费。

OpenAI 表示，随着模型能力变得更加具有 Agent 属性，他们会继续深化 API 间的整合，并提供新工具帮助部署、评估和优化生产环境中的 Agent。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

英伟达 CEO 黄仁勋曾指出，未来每个公司的 IT 部门将转变为 AI Agent 的「HR 部门」。

从管人到管 AI，Agent 将很快成为劳动力的重要组成部分，提高各行业的生产力，此次发布的工具集将是帮助开发者和企业构建、部署和扩展可靠高效 AI Agent 的重要一步。

此前，开发者需要自行组合不同 API 和编写复杂的协调逻辑来构建 AI Agent，有了新工具，能够极大地简化了这一过程。

Responses API 将多种功能整合成一个简单接口，而内置工具为 AI 提供了「感知」和「行动」的能力，Agents SDK 则提供了协调多 Agent 的标准框架。

通过降低技术门槛，更多企业能够快速构建和部署 AI Agent。

这或许也是 OpenAI 所说的「Agnet 元年」的真正含义——让 AI 不再局限于聊天框，而是能融入现实工作流程，成为你的「数字助理」甚至「数字同事」。

附上 AMA 问答：

Q：哪种操作系统最适合 computer use：Linux、Mac 还是 Windows？是图形界面（UI）、终端（terminal），还是其他方式更好？哪些应用程序在计算机上表现最佳，还是说这并不重要？

A：CUA 模型主要是针对网页任务进行训练的，但早期用户发现它在桌面应用程序上的表现也出乎意料地好。不过现在还处于早期阶段，我们还有很多可以改进的地方！Q：你们会提供 TypeScript SDK 吗？

A：很快会推出。Q：我们未来会在 API 中看到 o1 pro 吗？

A：计划很快在 responses API 中发布。Q：我们需要自行管理 Docker 环境来使用计算机功能吗？

A：可自行管理 Docker 环境，也可以使用云服务。Q：何时会有 Operator 在 API 中可用？

A：从今天开始，你可以在 API 中使用与 Operator 相同的功能！我们已经在新的 Responses API 中部署了驱动 Operator 的 CUA 模型。Q：你们会考虑提供集成的虚拟机（VM）来支持「 computer use」，或者与合作伙伴合作，以减少搭建环境的需求吗？

A：目前还没有这样的计划，但可以查看 CUA 示例应用，其中包含一些示例环境，用于远程托管。Q：在整个 agent-handoff 流程中，如何确保个人隐私？有没有什么方法可以增强用户与 Agent 交互时的隐私保护？

A：有多种隐私保护机制。Agents SDK 支持开发者定义的安全措施（guardrails），用于输入/输出验证，还可以使用 input_filter 来限制在交接过程中传递的消息上下文。

文章来自于“APPSO”，作者“APPSO”。

刚刚，OpenAl 发布 Agent 工具包，网友：谢谢 Manus AI

关键词: AI , openai , Agent , chatGPT

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。
项目地址：https://github.com/mannaandpoem/OpenManus

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales