Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

2823点击 2024-11-15 15:04

受 ChatGPT 强大问答能力的影响，大型语言模型（LLM）提供商往往优化模型来回答人们的问题，以提供良好的消费者体验。

随着智能体研究日趋成熟，优化似乎有了新的方向。

人工智能著名学者、斯坦福大学教授吴恩达今天指出：「现在有一种趋势是优化模型以适应智能体工作流程，这将为智能体性能带来巨大提升」，并撰写一篇博客简单阐述了这种趋势。

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

继 ChatGPT 在回答问题方面取得突破性成功之后，许多 LLM 的开发都集中在提供良好的消费者体验上。因此，LLM 被调整为回答问题或遵循人类提供的指令。指令调整指导模型的数据集很大一部分可以为人类编写的问题和指令提供更有用的答案，面向 ChatGPT、Claude、Gemini 等等。

但智能体工作负载不同，人工智能软件不是直接为消费者生成响应，而是应该在迭代工作流程中：

反思自己的输出；

使用工具；

编写规划；

在多智能体环境中进行协作。

主要模型制造商也越来越多地优化用于 AI 智能体的模型。

以工具使用（或函数调用）为例。如果 LLM 被问及当前天气，它将无法从训练数据中获取所需的信息。相反，它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前，应用程序开发人员就已经使用 LLM 来生成函数调用，通过编写更复杂的提示来告诉 LLM 哪些函数可用，然后让 LLM 生成用于确定是否要调用函数的字符串。

在 GPT-4 之后，生成此类调用变得更加可靠，然后许多其他模型本身就支持函数调用。如今，LLM 可以决定调用函数来搜索信息以进行检索增强生成 (RAG)、执行代码、发送电子邮件、在线下订单等等。

最近，Anthropic 推出了升级版的 Claude 3.5 Sonnet，能像人一样使用计算机。这意味着 LLM 原生使用计算机方向向前迈出了一大步，将帮助许多开发人员。一些团队还致力于让 LLM 使用计算机构建新一代 RPA（机器人流程自动化）应用程序。

随着智能体工作流程的成熟，我看到的是：

首先，许多开发人员正在 prompt LLM 来执行他们想要的智能体行为。这样可以进行快速、丰富的探索！
在极少数情况下，开发非常有价值的应用程序的开发人员将微调 LLM，以更可靠地执行特定的智能体功能。例如，尽管许多 LLM 本身支持函数调用，但它们是通过将可用函数的描述作为输入，然后（希望）生成输出 token 以请求正确的函数调用来实现这一点的。对于生成正确函数调用非常重要的任务关键型应用程序，针对应用程序的特定函数调用微调模型可显著提高可靠性。（但请避免过早优化！我仍然看到太多团队在进行微调，而他们可能应该在采取这种做法之前花更多时间进行 prompt。）
最后，当诸如工具使用或计算机使用之类的能力对开发人员来说似乎很有价值时，主要的 LLM 提供商正在将这些能力直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助，但我预计它对于智能体推理和规划会更有用。

大多数 LLM 都针对回答问题进行了优化，主要是为了提供良好的消费者体验，我们已经能够将它们「移植」到复杂的智能体工作流程中，以构建有价值的应用程序。为支持智能体中的特定操作而构建 LLM 的趋势将为智能体性能带来很大提升。我相信，在未来几年内，在这个方向上将实现巨大的智能体能力提升。

原文链接：

https://www.deeplearning.ai/the-batch/issue-275/

文章来自于“机器之心”，作者“小舟”。

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

关键词: claude , AI , 吴恩达 , 智能体

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0