接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了
8676点击    2026-03-19 15:20

接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


上周,除了 OpenClaw,AI 圈还有个词越来越火🔥。


这个词你可能也没见过:Agent Harness 。


说实话我第一次看到,连 Harness 都不知道是什么个意思。然后公众号搜了一大圈发现各种解释都有,有人说是 Agent 的脚手架,有人说是模型和工具之间的调度层,也有人干脆说「这就是上下文工程换了个名字」。


我承认,即便我看了许多专业文章,我当时的理解也没比「上下文工程」深多少。


直到昨天,我翻到 LangChain 一篇叫《The Anatomy of an Agent Harness》的文章,我才真正理解。


https://blog.langchain.com/the-anatomy-of-an-agent-harness/


文章里面给了一个很简洁的公式:Agent = Model + Harness 。


Model 好理解,就是大模型本身。Harness 呢?是围绕模型搭建的所有外部支撑。比如 Skills 定义、工具调用接口、记忆管理、多 Agent 协作机制……可以理解成模型外面那一整套装备系统。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


当我理解后,我想到一个群里在聊的很实际的问题:如果你的 Harness 里塞了 40 个 Skills、每个 Skill 超过 2000 Token,你的模型还能准确调用其中任意一个吗?


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这不,最近 MiniMax 发布了全新旗舰模型:M2.7,说自己具备「领先的 Agent Harness 能力」,给出的数据是:40 个复杂 Skills 环境下,97% 的遵循率。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


97%? 这个数字引起了我的好奇和质疑。


我决定自己亲身上手测一测,看看是怎么个事。


M2.7 的更新不止 Agent Harness


在说测试之前,先快速过一下 M2.7 这个版本的整体提升:


1、Agent Harness 是核心亮点之一,但远不是全部。


在基准测试 SWE-Pro 中,M2.7 得分 56.22%,几乎接近 Opus 最好的水平。 这一能力同样延伸到了端到端的完整项目交付场景(VIBE-Pro 55.6%)以及对复杂工程系统的深层理解 Terminal Bench 2(57.0%)。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


2、代码能力一直是 M2 系列的强项,M2.7 把这个优势拓宽了不少。


它现在能做日志分析和 Bug 定位、代码重构,甚至能写出没有安全漏洞的代码。在 OpenAI 基于 Kaggle 搭建的 MLE Bench 上,M2.7 参与了 22 道高难度竞赛题目,拿下 9 枚金牌。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


3、多智能体协作方面,M2.7 针对 Agent Teams 做了专项能力构建,让模型具备原生的协作智能。


这意味着多个 Agent 之间的配合不再完全依赖外部编排框架来驱动,模型自身就能理解协作意图。


4、Office 自动化也是重头戏。


复杂 Excel 操作、金融场景分析、PPT 从零生成和高保真编辑、Word 文档的多轮修改,覆盖面很广。角色扮演能力也有大幅增强,原生支持十种语言,角色人格跨语言保持一致。


5、M2.7 优化了对「马嘉祺」老师的识别哈哈哈哈。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这个数字很重要,后面会专门说。


但数字再好看,也得跑一跑才知道真假,下面进入实测环节!


我用龙虾测试了 M2.7


我把 M2.7,接入了最近几天吃灰的 OpenClaw。


为啥不用呢?国内一线模型带不动,国外一线模型太贵,就是这么个事。


「Case 1:五步任务,我只发了一条指令」


第一个测试,我想看看 M2.7 处理多步骤复杂任务的极限在哪。


我在网上找到冷逸测试豆瓣的 case,我把它改成难度略高的 github,然后发了这样一条指令:


去 GitHub Trending 搜索本周最热门的开源项目,结合 Star 增长数、项目语言和最近提交时间综合筛选 15 个 AI 相关的项目,整理成 Excel 表格并标注项目简介和适用场景,根据 Excel 的数据设计一个分类可视化 HTML 看板,最后把 Excel 和 HTML 一起发到我的飞书上。


拆开来看,这条指令至少包含五个步骤。搜索、筛选、生成 Excel、设计 HTML、发送飞书。每一步的输出是下一步的输入,中间任何环节断掉,后面全部作废。


以前用其他模型做类似的事,基本到第三步就开始出问题,最常见的情况是筛选逻辑跑偏,或者生成完 Excel 之后「忘了」还有后续步骤。


但 M2.7 不一样,它一次就跑完了整个流程。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


Excel 里的字段结构逻辑非常清晰,总 Star,周增长、项目语言、增长趋势都有,并且每个项目的适用场景描述不是简单复制 README,而是做了提炼和归纳,甚至还根据语言和项目分类进行了聚合统计(在另外的 tab 页)。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


HTML 看板也是非常的有设计感,不仅给出项目列表还给出几个统计图:


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


说实话,跑通五步链条让我挺惊喜的,彻底改变了我对我龙虾的印象:


原来以前不行不是你的原因,亲爱的龙虾。


更让我惊喜的是整个过程的体验:我只发了一条指令,没有中途纠正任何一步。


以前那种「每走一步都得盯着怕它跑偏」的焦虑,这次完全没有出现。


「Case 2:论文翻译,终于不用三个工具来回跳了」


上一个测试,在技术上算不上特别极端,更多考验的是流程执行的完整性。


我想找一个更能体现模型「理解力」的场景,刚好在观猹上看到一个猹评很适合。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


我给 M2.7 的指令很直接:就是把他的猹评给到龙虾。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这次集成了 M2.7 的龙虾,又让我重新体验到什么叫「一步到位」,又直接一遍把代码给写好了。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


我给它丢了一个 54 万字的论文进去,它竟然完美识别。。。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这是翻译后的文章:


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


个人感觉翻译本身质量不错,术语处理准确,虽然离信达雅还有一段距离。


然后,我对我的小龙虾好感度,继续上升🔝。


「Case 3:从番茄小说到 100 集短剧剧本」


第三个测试我想再加点压力。


我以前想用龙虾帮我写短剧,但是以前用的大部分写完 10 章就不写了:上下文太长,模型吃不消。


有了前面两次的经验,我觉得用 M2.7 来写,指定能成。


我给它的指令是这样的:先去番茄小说搜索目前最火的 10 部小说,选一部你认为最适合改编短剧的,给出改编创意和人设,然后用短剧 Skill 帮我生成 100 集短剧剧本,所有内容整理到一个飞书文档里。


我这里是基于大纲改变创意,然后让 M2.7 用 skill 来把创意变成 100 集的短剧。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这个案例的复杂度,比前两个高出不少:


外部数据搜索、创意判断和选择、特定 Skill 的调用、大量结构化内容的生成,再加上最终要输出到飞书文档。


说实话,虽然我觉得它能干,但发出这条指令的时候,我给自己的心理预期是完成 70%就不错了。


但我没想到,它直接给我咔咔咔干完了!


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


打开飞书文档那一刻,我有点没反应过来:


100 集的剧本大纲完整呈现,每集有场景设定、核心对话和剧情推进节点。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


它选择的原作和改编切入角度也有自己的判断逻辑,并不是简单的「拿来就用」。


并且完美的遵循了指令:改编创意。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


节奏把控也有模有样,前 20 集密集铺设悬念,中段情感线和主线交织推进,尾声有反转收束。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


算上介绍和大纲,全文一共 35512 字,不愧是 M2.7,A 爆了。


用专业编剧的标准来审视,我不知道这样的稿子能不能一遍过。但作为一份初稿产出,从搜索到选题到创意构思到 100 集剧本生成,全链条一次跑通,效率确实惊人。


这次任务其实真的很复杂:多个 Skills 的协调调用、跨步骤的信息精准传递、大规模结构化内容的生成。


M2.7 在整个过程中没有遗漏任何一个环节,也没有把前面步骤的结果搞混。


Agent 模型的核心竞争力,归根结底就两件事


三个案例跑完,我一直在反复琢磨一个问题:


Agent 场景下运行的模型,到底需要具备什么核心能力?


这个问题如果换一种说法就是:什么决定了一个模型能不能把 Agent 跑好?


想来想去,答案逐渐清晰了。其实,归结起来就两件事:模型的指令遵循效果和长上下文场景下处理能力。


先说指令遵循。一个 Agent 系统在运行时,System Prompt 里通常塞满了各种 Skills 定义、工具使用说明和行为规范。Skills 越多越复杂,模型出错的概率就越高。


就像开头说的,M2.7 在 40 个复杂 Skills(每个超过 2000 Token)同时存在的环境下,M2.7 的遵循率是 97%。而其实很多模型在 Skills 数量超过 20 个之后,遵循率就开始明显下滑,漏调、错调越来越频繁。


再说长上下文处理能力,M2.7 在长上下文场景的处理能力:开源第一,国内第一。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


这个能力为什么对 Agent 至关重要?因为 Agent 运行时,System Prompt 里光是 Skills 库和工具描述就要占掉大量 Token,再加上多轮对话历史、中间步骤执行结果、检索到的外部信息……上下文会迅速膨胀。


长上下文处理能力不够,模型就会开始「忘事」,会导致一系列在执行任务过程的问题。


为了验证 M2.7 在长上下文下的指令遵循表现,我做了一个额外测试:在 System Prompt 中塞入大量 Skills 定义,对话过程中不断追加新指令和信息,观察模型在上下文持续拉长时是否出现遵循率下降。


结果相当稳定,即使上下文已经很长,指定 Skill 依然能被准确调用,前面的指令也没有「被遗忘」。


因此,我们能看到一个非常清晰的行业趋势:最近 DeepSeek 年前更新的新版模型、Anthropic 的 Claude Opus4.6,都在大力扩展上下文长度,其实也都是为了提高在 Agent 场景的模型效果。


但光有长上下文还不够,在长上下文里依然保持极高的指令遵循率,这才是 M2.7 的真正壁垒。


尤其是在需要大规模、高频次调用 Agent 的生产场景里,指令遵循率每提升一个百分点,都意味着更少的重试、更低的成本、更稳定的产出。


顺便提一点:M2.7 的 API 定价在国际同类模型中几乎是独一档的:


即便是企业级用户或者 OPC 用户,按月订阅最贵的极速版套餐,算下来一小时也不到一美金。而对于普通用户,用 Plus 或者 Max 的套餐来养龙虾,已经非常便宜且足够了。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


讲到这,M2.7 的优势就非常清楚了:几乎顶尖的 Agent 能力水平(指令遵循效果和长上下文处理能力),同级模型里极低的调用价格。对于有需要大规模调用 Agent (比如养虾)的用户来说,M2.7 无疑是最好的选择。


M2.7 对 Agent 生态意味着什么


回到开头那个公式:Agent = Model + Harness。


过去一年,做 Agent 产品的团队把大量精力花在了 Harness 一侧:任务编排怎么设计、记忆管理怎么做、工具调用怎么优化,工程层面越做越精细。


但很多 Agent 产品跑不好的根源,其实在 Model 这一侧:Harness 设计得再精巧,底层模型的指令遵循率撑不住、长上下文处理跟不上,Agent 的整体表现就是上不去。


M2.7 相当于把公式里 Model 这一项的能力抬高了一个台阶,带来的影响是连锁反应。


最直观的变化是,以前 Agent 里有些复杂任务是完成不了的,原因不是模型的 Harness 设计得差(比如龙虾用国产模型),是模型走到第四步第五步开始丢上下文或者调错 Skill。换上 M2.7 之后,这些之前「跑不通」的链条有机会跑通了。


还有一个容易被忽略但很巨大的变化:Token 成本。


Agent 每次任务执行失败后重试,消耗的 Token 都是真金白银。遵循率从 85%提升到 97%,意味着任务失败率大幅下降。在大规模调用的场景下,这笔省下来的费用相当可观。


另外,MiniMax 在 M2.7 的研发过程中,做了一个有意思的实践:


让 M2 系列模型充当解决方案架构师,1 个人 4 天时间、零人工编码,自主搭建了一套包含 CI、测试、代码审查的完整开发 Agent Harness。再由这套系统进一步构建研究 Agent 系统,集成数据采集、训练、评测和协作能力。人类把控方向,模型负责构建,形成了一条模型自迭代的闭环。


这是我第一次听说,Agent 可以训练自己?!


我仔细想了下,背后的逻辑确实是成立的:如果一个模型的 Agent 能力足够强,它确实可以成为自身研发链条中的一环。


而这件事本身,可能就是对 M2.7 Agent 的 Harness 能力最有力的证明。


接入 MiniMax M2.7 后,我的 OpenClaw「超进化」了


与此同时,MiniMax 同时开源了 Skills 库:


https://github.com/MiniMax-AI/skills


任何人都可以直接使用或者二次开发,进一步降低了所有人搭建 Agent 系统的门槛。


测完 M2.7,我对 Agent Harness 这个概念的理解从模糊变得具体了。


Agent Harness 确实不是「上下文工程换了个名字」那么简单。


Agent 的本质是模型能力(model)+工程设计(Harness)。 当模型的指令遵循和上下文处理能力足够强,Harness 的设计空间会被极大打开;反过来,再好的 Harness 也需要一个记得住事、听得懂话的模型来撑住。


M2.7 在这个方向上交出了一份很扎实的成绩单:


长上下文处理国内第一、40 个 Skills 下 97% 的遵循率、以及在同级模型中几乎独一档的 API 定价。


所以在大规模 Agent 调用场景下,不管你是创业者要在 Agent 产品接入、还是使用 Claude code 进行 Vibe Coding,或者说是在养龙虾,M2.7 目前就是国内模型里性价比最高的选择。


我现在更好奇的是:当更多开发者基于 M2.7 去搭建 Agent 应用,会跑出什么样的产品形态。模型的天花板提高了,产品的可能性也随之打开。


如果你正在玩龙虾,或者在做 Agent 相关的产品,我都建议你去试试 M2.7:


https://platform.minimaxi.com/subscribe/token-plan


有些东西,自己跑一遍,才会有最真实的判断。


文章来自于“特工宇宙”,作者 “特工小师 特工小天”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0