吴恩达：四个步骤，让大模型变得更好

10208点击 2024-05-18 11:15

本周，生成式 AI 的竞争达到了新的高潮。

前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。

自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的能力，做出了诸多努力。

今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型能力的方式，主要包括：1）提升模型的推理能力；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。

吴恩达：四个步骤，让大模型变得更好

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

本周，谷歌宣布将 Gemini Pro 1.5 的输入上下文窗口扩大一倍，从 100 万 token 扩展到 200 万 token；OpenAI 发布了 GPT-4o，它的生成速度是 GPT-4 Turbo 的 2 倍，而且便宜 50%，原生支持输入、生成多模态 token。这是 18 个月以来的最新进展。

自 2022 年 11 月 ChatGPT 推出以来，随着 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的发布等重要里程碑的到来，许多模型提供商通过两个重要方式提高了自己的能力：

提升模型的推理能力，使 LLM 能够思考复杂的概念并遵循复杂的指令；
更长的输入上下文窗口。

GPT-4 和其他高级模型的推理能力使它们非常擅长解释带有详细说明的复杂 prompt。许多人习惯向 LLM 快速提出 1 - 2 句话的查询。相比之下，在构建应用程序时，我看到经验丰富的团队经常编写可能长达 1 - 2 页的 prompt（我的团队称其为「mega-prompt」），这些 prompt 提供复杂的指令来详细说明我们希望 LLM 如何执行一个任务。我仍然认为团队在编写详细指令方面做得不够好。有关中等长度 prompt 的示例，请查看 Claude 3 的系统 prompt，详细且为 Claude 应该如何执行任务提供了明确的指导。

吴恩达：四个步骤，让大模型变得更好

这是一种与我们通常在 LLM 网络用户界面中使用的非常不同的 prompt 方式。在这种方式中，我们可能会快速进行查询，如果响应不满意，则通过与聊天机器人反复对话来表述清楚我们想要什么。

此外，输入上下文窗口长度的增加为开发人员的工具箱添加了另一种技术。GPT-3 激发了关于小样本上下文学习的大量研究。例如，如果您使用 LLM 进行文本分类，您可能会提供一些（例如 1 - 5 个）文本片段及其类别标签的样本，以便它可以泛化到其他文本。

GPT-4o 接受 128000 个输入 token，Claude 3 Opus 200000 个 token，Gemini 1.5 Pro 100 万个 token（200 万个 token 目前仅适用于预览版）。然而，随着输入上下文窗口变得越来越长，人们发现 LLM 并不局限于少数样本。通过多样本（many-shot）学习，开发人员可以在 prompt 中给出数十个甚至数百个样本，这比少样本（few-shot）学习效果更好。

在构建复杂的工作流时，我看到开发人员通过如下过程获得了良好的结果：

编写快速、简单的 prompt，看看效果如何。
根据输出不足的地方，迭代地充实 prompt。这通常会导致更长、更详细的 prompt，甚至可能是「mega-prompt」。
如果这仍然不够，请考虑少样本或多样本学习（如果适用），或者不太频繁地进行微调。
如果仍然不能产生您需要的结果，请将任务分解为子任务并应用智能体工作流。

我希望这个过程能够帮助大家更轻松地构建应用程序。如果您有兴趣更深入地研究 prompt 策略，我推荐 Medprompt 论文，其中列出了一组复杂的 prompt 策略，可以带来非常好的结果。

吴恩达：四个步骤，让大模型变得更好

本文来自微信公众号“机器之心”

吴恩达：四个步骤，让大模型变得更好

关键词: 吴恩达 , 大模型 , 模型训练 , ChatGPT , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0