Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Anthropic 上线「做梦」功能,让 Agent 越睡越聪明
8716点击    2026-05-07 17:00

Anthropic 又又又更新了


之前 Claude Code 源码泄露的时候,大家惊奇的发现,里面有一个正在开发的功能:做梦


今天凌晨,做梦成果评估多 Agent 协作这三项功能,已经被上线到了 Claude Managed Agents。这东西之前报道过,是 Anthropic 的 Agent 托管服务,具体的可以看这里:Anthropic 官方 Harness 发布:全面解读 Managed Agents


这仨个功能里面 成果评估多 Agent 协作,这俩已经直接可用了。「做梦」则需要单独申请访问权限,申请地址在这:https://claude.com/form/claude-managed-agents


Agent 会做梦了


Agent 在每次工作(session)中会往 memory store 写东西,记住自己学到了什么。但时间长了,memory 里会堆满重复条目、过时信息和相互矛盾的记录


Dreaming 解决的就是这个退化问题。它是一个在 session 之间运行的异步任务,读取现有的 memory store 和过去的 session 记录(最多 100 个),然后生成一个全新的、整理好的 memory store:重复的合并,过时的替换成最新值,还能从多个 session 的交叉分析中发现新模式


Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Dreaming 的工作流程:从多个 session 和 memory store 中提炼出整理后的新 memory


在整个处理的过程中,做梦不会修改原始数据。输入的 memory store 保持原样,输出写到一个新的 store 里。不满意可以直接丢掉,不影响原始数据


Anthropic 官方的描述是,memory 让 Agent 在工作中记住学到了什么,dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习,一个是反思整理


目前支持 claude-opus-4-7 和 claude-sonnet-4-6 两个模型。dreaming 的耗时取决于输入量,通常几分钟到几十分钟,按标准 API token 费率计费


成果评估


以前让 Agent 干活,干完了需要人工检查,而成果评估(Outcomes)这东西,是把这个检查环节自动化了:你需要写一份评分标准(rubric),Agent 干完活之后,一个独立的 grader 会对着 rubric 逐项打分


它这个 grader 会运行在独立的上下文窗口里,不会影响上下文。如果 grader 判定某些条目没达标,会把具体差在哪里反馈给 Agent。Agent 拿着反馈改,改完再评,直到全部达标或者迭代次数用完(默认 3 次,最多 20 次)


Anthropic 内部测试的数据:outcomes 比标准 prompting loop 的任务成功率高了最多 10 个百分点,在文件生成任务上,docx 成功率 +8.4%,pptx 成功率 +10.1%。越难的任务提升越明显


Rubric 就是一份 Markdown 文档,按维度列出什么算合格。比如一个 DCF 模型的 rubric 会写:营收预测要用过去 5 年的历史数据、WACC 计算要标注假设来源、敏感性分析必须包含在内


配合这次同时推出的 Webhooks,你可以定义好 outcome,让 Agent 去干,干完了 webhook 通知你。不用盯着看


正义的群殴


当工作太复杂,多 Agent 协作系统就会让一个 lead agent 把任务拆成几块,分给不同的 specialist agent 并行处理,这个东西被叫做 multiagent orchestration 


在这系统里面,每个 specialist 有自己的模型、prompt 和工具集,在自己的 session thread 里工作,上下文互相隔离。但它们共享同一个文件系统:一个 agent 写了文件,另一个 agent 能读到


Anthropic 上线「做梦」功能,让 Agent 越睡越聪明

Claude Console 里的多 Agent session 追踪界面,每个 agent 做了什么一目了然


线程是持久的:lead agent 可以回头找之前调用过的 agent 继续聊,那个 agent 还记得之前做了什么。在 Claude Console 里可以追踪每个 agent 的每一步操作,谁做了什么、什么顺序、为什么这么做,全程可见


一个有意的限制:只支持一层委托。Lead agent 可以调用其他 agent,但被调用的 agent 不能再调用下一层。这是为了防止 agent 链式调用失控


使用反馈


根据 Anthropic 的说法,有四家公司已经在生产环境或深度测试中用上了这些新功能,各自的场景和数据都挺有说服力


Harvey法律科技公司,用 Managed Agents 协调长文法律文书起草。加了 dreaming 之后,Agent 能记住上次 session 里学到的文件格式技巧和工具使用模式。他们测试的结果是完成率涨了大约 6 倍


Netflix平台工程团队做了一个日志分析 agent,要处理几百个 build 在不同来源的日志。用 multiagent 并行分析各批日志,只浮出反复出现的问题模式,忽略一次性的噪音


Spiral(by Every)一个写作工具,用了一个很聪明的模型分层方案:Haiku 当领队接需求、问跟进问题,然后把写作任务分给 Opus 的子 agent 干。要多个稿件就并行跑。用 outcomes 对着 Every 的编辑标准和用户的个人风格(从 memory 里取)给每篇稿子打分,不达标不交


Wisedocs医疗文档质检公司,用 outcomes 的 rubric 对照内部质检标准审核文档。实测数据:AI + 人类协作比纯人类审核快了 50%,多抓了 30% 的错误。不过他们也发现,自家 pipeline 处理速度是 Managed Agents 的 7 倍、成本只有十分之一,所以只把 Managed Agents 用在 QA 审核这个环节,不做主力处理


Dreaming 目前是 research preview,outcomes、multiagent 和 memory 在 public beta 阶段。想试 dreaming 需要单独申请


Anthropic 上线「做梦」功能,让 Agent 越睡越聪明


 官方博客:claude.com/blog/new-in-claude-managed-agents

 开发文档:platform.claude.com/docs/en/managed-agents/overview

 申请访问:claude.com/form/claude-managed-agents


文章来自于"赛博禅心",作者 "金色传说大聪明"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0