周日晚上,都准备去睡觉了。结果在 X 上刷到一条消息,有个国外的博主说,MiniMax 的 M2 模型将会成为中国最好的模型,与 Sonnet 4.5 旗鼓相当。

我当时心里咯噔一下。MiniMax? 又整什么活?
说实话,虽然不认识 MiniMax 的同学,但这家公司的性格我相当喜欢。平常不声不响,但每次出手都能让人眼前一亮。
之前,MiniMax 的音频和视频模型全球市场上冲得很猛,没想到他们主攻多模态的同时,这次在语言模型上也发力了。
我先给大家总结下我看到的 MiniMax-M2 的关键信息:
1、M2 的核心方向同样是 Coding 和 Agent。 这个不意外。整个行业都在往这两个方向冲,特别是 Coding,已经成为兵家必争之地了。
2、在 Artificial Analysis 测试榜单上,M2 的总分排全球第五,低于 GPT-5、Grok 4、Claude 4.5,但高于 Claude 4.1。这个数据从直觉上是可信的。
3、具体到编码任务,相比 Claude 4.5 系列模型,MiniMax-M2 虽然总分低一点,但成本有明显优势。M2 的成本几乎是 Claude 4.5 Sonnet 的 8%,而生成质量却能保持在八九成的水准。
4、M2 平均每秒能输出 85 Tokens,Claude 4.5 Sonnet 是 61。也就是说,M2 的速度也更快。
5、M2 已经开源,目前排在 Hugging Face 趋势榜的第四。
https://huggingface.co/MiniMaxAI/MiniMax-M2
除了 M2 模型之外,MiniMax 还上线了独立的 MiniMax Agent App(网页版之前就上线了,我曾经写过)。

这次 MiniMax 还针对性推出了免费活动:新的 M2 模型,以及 Agent 产品都可以限时免费使用 14 天。包括 API 也免费。
我去,这应该是目前我见过免费幅度最大的活动了。
我看到 X 上有人评论说:是骡子是马,拿出来溜溜。下面我就来测测,这次我的思路是用它来直接构建一个具备前后端能力的产品。
毕竟之前 MiniMax Agent 的一个亮点就是支持后端。

为了方便截图,我这次主要使用网页版。大家要是日常用的话,可以下载 App。网页版链接如下:
https://agent.minimaxi.com
简单说,我想做一个诗词网站。能按照朝代、按诗人来浏览诗词。而且还需要有 CMS,我可以添加自己的内容。
咱们看看 MiniMax-M2 能不能搞定。我输入提示词:

可以看到,页面有提示,M2 模型发布旗舰,Agent 专业模式限时免费。咱抓紧机会用。
我选了专业模式,然后点运行,Agent 的下一步是规划,这对于经常用 Agent 产品的同学肯定是稀松平常了。
还是放个简单的 Gif 图,大家看看,Agent 理解了我的需求,并且规划了几个 ToDo List,让我确认。我确认后,它开始推进第一步:研究收集诗词内容和数据。

从截图可以看到,噼里啪啦模型开始做深度研究,找各个朝代的诗人。等了大概 10 分钟,交付了一个存放诗词内容的 JSON 文件。
说句题外话,我觉得这一步本身就是 Deep Research。
之前很多人觉得 Deep Research 是小众场景,这种观点只对了一半,因为 Deep Research 除了给用户用之外,还可以作为 Agent 执行中的一环。
Deep Research 是 Agent 产品的重要基建。
MiniMax Agent 执行过程中,我能看到它会自我检查,确保 JSON 文件的格式是正确的。
我又往上翻了下,发现每个关键步骤之后,Agent 都会做二次 Check。这个设计应该可以保证最终的成品率。咱们一会看看就知道。

你可能会问,不是测 M2 吗?为什么不直接测模型,而是要到 MiniMax 的 Agent 中?
是这样,第一,MiniMax Agent 已经介入了最新的 M2 模型。第二,M2 本身就是一个 Agentic 的模型,承载它的容器最好也是 Agent。这是我的理解。
咱们继续往前走。
数据收集完毕后,Agent 进入到网站设计这一步。我前面的提示词中只是简单说了自己想要一个古朴风格的网站,但也没说具体怎么古朴。
所以,Agent 在这里,给我细化了三个方案:

我选择了它推荐的方案一。继续下一步,看到它创建了三份设计规范文档。再之后,就进入网站构建环节了。
我一边录屏,一边写提示词,说实话,当时也不确定最终能生成到什么程度。
就目前的体验来看,MiniMax Agent 给我的印象很好,最突出的感觉是它很靠谱。
一方面,它会自动检查关键步骤,收集的信息也够完整;另一方面,它居然还会帮我生成一份设计规范,这完全超出了我的预期。
将心比心,如果换成我们团队手动做,这个环节多半会被忽略掉。
等待的过程中我也在想,如果没有 AI,这样一个网站的需求,从前端到后端,起码要两个人干上半个月吧?但现在,我一个人,借助 AI,就能独立完成。
注意不是 Demo,而是能真正具备前后端能力的成品。
这就是 AI 时代新的创作方式。一个人,也能是整个团队。
此刻,Agent 还在继续忙碌。我录着屏,同时在飞书文档里奋笔疾书。想想都觉得挺酷。

曾经我也是程序员,其实诗词网站不过就是 CRUD 的组合。程序员最烦躁写 CRUD,我干程序员的那会大家就有这样的情绪。
而现在,我可以把所有的 CRUD 都交给 AI 来做,甚至连页面都一并生成。换作十年前,我做梦都不敢这么想。
这才十年,无论是我的人生际遇,还是技术,都发生了翻天覆地的变化。
继续等,从刚才那一步到现在,大概 15 分钟了。扫了下 Agent 的工作界面,它已经把网站部署到了服务器上。
我以为这一步就大功告成了,没想到,接着它说还要进行网站测试。看来 Agent 的流程还是相当严谨。

从截图里我注意到一个细节:
Agent 不只是生成网站,还会主动分析页面结构。它能滚动页面、识别交互元素,甚至来回点击测试。
这应该是 MiniMax-M2 这次的重要优化,很明显模型已经能真正理解网页了。
整个测试过程大概持续了五分钟。
当 Agent 修复完所有问题后,又开始重新部署网站。我当时有点不耐烦,心想这下总该结束了吧。结果它又继续跑了一轮测试。
不得不说,这个流程相当专业。虽然看着着急,但仔细想想,这才是一个真正严谨的开发过程。

此刻 Agent 还在测试,一个页面一个页面地过。我在旁边看着,心里已经开始期待最终的网站效果。
这里特别说明一下,这次测试是一次性完成的,没有任何返工。后面展示的所有 GIF 和生成的网站,都是原汁原味,没有做过美化。
前两天 Andrej Karpathy 不是吐槽过嘛,说现在很多 Agent 产品其实只是被包装得好看的 Demo。
所以这次,我就打算看看 MiniMax Agent 的真实水准。我也不会只挑最好的结果来放,而是完整展示一个真实、未经修饰的案例。
大概 23 分钟后,终于看到成品了。
MiniMax 的 Agent 整个过程都是一步步测试、修复 Bug、重新部署,再进行验证。
光测试环节,它前后已经能连续自主运行 23 分钟。而如果从我输入最初提示词开始算起,前后已经运行了一个多小时……
记得之前硅谷有个观点认为,衡量 AGI 的一个重要指标就是看模型能够独立自主完成多长时间的工作。
现在,我可以确定 M2 至少可以独立运行一个小时,自己推理任务步骤,自己干活,然后自己检查,修复问题。
我的第一感觉是,网站很好看。在我没有明确指定设计风格的情况下,能够做成这个效果我已经相当满意了。
到这一步,我不再在前端页面上耗费太多时间。咱们推进到后端这一步,我希望给网站加上 CMS 的能力。

提醒下,MiniMax Agent 的后端能力需要依赖 Supabase。所以你会看到连接 Supabase 的提醒。
后端的开发仍然是一个繁重的工作,我看到 Agent 又规划了很长的 TodoList。15 分钟后,CMS 系统 OK 了。
同样录个屏,给大家看看管理后台的情况(录入诗人,以及可以正确显示到网页):
基本算是搞定了。
前后花了两个小时零八分钟。当然,大部分时间我都在等 Agent 执行。趁着这个空隙,我顺手也把这篇文章写完了。
不得不说,MiniMax 这家公司又一次给了我惊喜。
这一趟完整的体验下来,我的感受是,M2 模型的表现远超预期。
掰着指头数数,在国内的创业公司里,像 MiniMax 这样同时在做多模态模型和大语言模型的,已经少之又少。
而且他们的成绩也摆在那儿:音频、视频、文本模型,分别做到全球第一、第二、第五。

难怪 X 上有人说它能和 Sonnet 4.5 旗鼓相当。
虽然要追上 4.5 可能还差一点,但至少,MiniMax-M2 已经是目前性价比最高的 Coding 模型之一。它的价格,可是只有 Claude 的 8% 啊。这什么概念。
全球 Claude 性价比最高的平替模型,现在易主到 MiniMax-M2 了。我确定。
文章来自于微信公众号 “AI产品阿颖”,作者 “AI产品阿颖”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0