彭博今天消息,OpenAI 正准备推出一款代号为“Operator”的全新AI Agent产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。
根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,同时会为开发人员开放API接口。
彭博表示,OpenAI一直在进行几个与智能体相关的研究项目。其中一位人士表示,最接近完成的将是一个在网络浏览器中执行任务的通用工具。
OpenAI这一计划的发布,是整个行业向智能体推进的一部分。最近微软、谷歌、Anthropic都相继发布了功能强大的AI Agent。
尤其是Anthropic发布的“Computer Use”直接颠覆了人机交互,通过API开发者可以让 Claude 像人类一样使用计算机控制鼠标、键盘,包括查看屏幕、移动光标、点击按钮和输入文本等操作。
例如,用户可以让 Claude 去搜索网页上的信息、在电子表格中填写数据;或者打开软件进行特定的操作;也能协助开发人员执行重复性任务、测试代码等,整个流程Claude 会根据指令自动执行相应的操作。
目前,Computer use主要依靠API来驱动自动化指令,当开发者通过API向Claude 发送指令时,Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析,例如,对于 “使用计算机中的数据填写在线表格” 这样的指令,Claude 会识别出关键动作是填写表格以及数据来源是计算机中的数据。
这一过程类似它在处理文本生成任务时对语义的理解,只是此时语义重点在于计算机操作。会基于预训练过程中学到的语言模式和知识,将指令意图映射到对应的计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便准确把握开发者希望它执行的操作。
而OpenAI在明年发布的“Operator”很可能会在Computer use的基础之上进行大幅度创新和应用简化,扩大AI Agent的使用范围和应用场景。
文章来自于“AIGC开放社区”,作者“AIGC开放社区”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md