Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

8716点击 2026-05-07 17:00

Anthropic 又又又更新了

之前 Claude Code 源码泄露的时候，大家惊奇的发现，里面有一个正在开发的功能：做梦

今天凌晨，做梦、成果评估、多 Agent 协作这三项功能，已经被上线到了 Claude Managed Agents。这东西之前报道过，是 Anthropic 的 Agent 托管服务，具体的可以看这里：Anthropic 官方 Harness 发布：全面解读 Managed Agents

这仨个功能里面成果评估和多 Agent 协作，这俩已经直接可用了。「做梦」则需要单独申请访问权限，申请地址在这：https://claude.com/form/claude-managed-agents

Agent 会做梦了

Agent 在每次工作（session）中会往 memory store 写东西，记住自己学到了什么。但时间长了，memory 里会堆满重复条目、过时信息和相互矛盾的记录

Dreaming 解决的就是这个退化问题。它是一个在 session 之间运行的异步任务，读取现有的 memory store 和过去的 session 记录（最多 100 个），然后生成一个全新的、整理好的 memory store：重复的合并，过时的替换成最新值，还能从多个 session 的交叉分析中发现新模式

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

Dreaming 的工作流程：从多个 session 和 memory store 中提炼出整理后的新 memory

在整个处理的过程中，做梦不会修改原始数据。输入的 memory store 保持原样，输出写到一个新的 store 里。不满意可以直接丢掉，不影响原始数据

Anthropic 官方的描述是，memory 让 Agent 在工作中记住学到了什么，dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习，一个是反思整理

目前支持 claude-opus-4-7 和 claude-sonnet-4-6 两个模型。dreaming 的耗时取决于输入量，通常几分钟到几十分钟，按标准 API token 费率计费

成果评估

以前让 Agent 干活，干完了需要人工检查，而成果评估（Outcomes）这东西，是把这个检查环节自动化了：你需要写一份评分标准（rubric），Agent 干完活之后，一个独立的 grader 会对着 rubric 逐项打分

它这个 grader 会运行在独立的上下文窗口里，不会影响上下文。如果 grader 判定某些条目没达标，会把具体差在哪里反馈给 Agent。Agent 拿着反馈改，改完再评，直到全部达标或者迭代次数用完（默认 3 次，最多 20 次）

Anthropic 内部测试的数据：outcomes 比标准 prompting loop 的任务成功率高了最多 10 个百分点，在文件生成任务上，docx 成功率 +8.4%，pptx 成功率 +10.1%。越难的任务提升越明显

Rubric 就是一份 Markdown 文档，按维度列出什么算合格。比如一个 DCF 模型的 rubric 会写：营收预测要用过去 5 年的历史数据、WACC 计算要标注假设来源、敏感性分析必须包含在内

配合这次同时推出的 Webhooks，你可以定义好 outcome，让 Agent 去干，干完了 webhook 通知你。不用盯着看

正义的群殴

当工作太复杂，多 Agent 协作系统就会让一个 lead agent 把任务拆成几块，分给不同的 specialist agent 并行处理，这个东西被叫做 multiagent orchestration

在这系统里面，每个 specialist 有自己的模型、prompt 和工具集，在自己的 session thread 里工作，上下文互相隔离。但它们共享同一个文件系统：一个 agent 写了文件，另一个 agent 能读到

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

Claude Console 里的多 Agent session 追踪界面，每个 agent 做了什么一目了然

线程是持久的：lead agent 可以回头找之前调用过的 agent 继续聊，那个 agent 还记得之前做了什么。在 Claude Console 里可以追踪每个 agent 的每一步操作，谁做了什么、什么顺序、为什么这么做，全程可见

一个有意的限制：只支持一层委托。Lead agent 可以调用其他 agent，但被调用的 agent 不能再调用下一层。这是为了防止 agent 链式调用失控

使用反馈

根据 Anthropic 的说法，有四家公司已经在生产环境或深度测试中用上了这些新功能，各自的场景和数据都挺有说服力

Harvey法律科技公司，用 Managed Agents 协调长文法律文书起草。加了 dreaming 之后，Agent 能记住上次 session 里学到的文件格式技巧和工具使用模式。他们测试的结果是完成率涨了大约 6 倍

Netflix平台工程团队做了一个日志分析 agent，要处理几百个 build 在不同来源的日志。用 multiagent 并行分析各批日志，只浮出反复出现的问题模式，忽略一次性的噪音

Spiral（by Every）一个写作工具，用了一个很聪明的模型分层方案：Haiku 当领队接需求、问跟进问题，然后把写作任务分给 Opus 的子 agent 干。要多个稿件就并行跑。用 outcomes 对着 Every 的编辑标准和用户的个人风格（从 memory 里取）给每篇稿子打分，不达标不交

Wisedocs医疗文档质检公司，用 outcomes 的 rubric 对照内部质检标准审核文档。实测数据：AI + 人类协作比纯人类审核快了 50%，多抓了 30% 的错误。不过他们也发现，自家 pipeline 处理速度是 Managed Agents 的 7 倍、成本只有十分之一，所以只把 Managed Agents 用在 QA 审核这个环节，不做主力处理

Dreaming 目前是 research preview，outcomes、multiagent 和 memory 在 public beta 阶段。想试 dreaming 需要单独申请

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

→ 官方博客：claude.com/blog/new-in-claude-managed-agents

→ 开发文档：platform.claude.com/docs/en/managed-agents/overview

→ 申请访问：claude.com/form/claude-managed-agents

文章来自于"赛博禅心"，作者 "金色传说大聪明"。

关键词: AI新闻 , Anthropic , claude , claude做梦功能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0