上周 Claude Cowork 刷屏的时候,我还在想:什么时候能用上?
结果,这周 MiniMax 版 Cowork 就来了。
今天,MiniMax Agent 2.0 推出了 Desktop App,能操作本地文件、自动化网页操作。
MiniMax Agent 2.0 这次更新了两个核心能力:
一个是 Desktop App,一个是 Expert Agents。
Desktop App 便是 Cowork,Expert Agents 你可以理解成是 Skills,封装专业经验,让 AI 按你的标准干活。

先看最简单的:整理文件夹。
我的下载文件夹里堆了一堆乱七八糟的东西——exe、mp4、pdf、zip、docx,找个文件要翻半天。

让 MiniMax Desktop App 帮我整理:
帮我按照文件类型整理下载文件夹里的内容

它的反应很快。先是 ls 了一下我的下载文件夹,看看都有什么文件。然后自己创建了一堆分类文件夹,开始一个一个移动文件。
中间有个 docx 文件被其他程序占用,移不动。它没有卡住,而是跳过这个文件,继续处理其他的。

这个细节我觉得挺好的。遇到问题不会直接崩掉,而是绕过去,最后给你一个报告。

再难一点的,整理简历。
最近在招人,收了一堆简历,全堆在一个文件夹里,文件名五花八门,有的带岗位,有的带薪资,有的就一个人名,想找某个人的简历要翻半天。

我试着让 MiniMax Cowork 帮我整理:
帮我整理文件夹里的简历,按姓名和工作年限重命名(如姓名_年限.pdf),并把工作年限大于 5 年的单独放一个 Senior_Level 的文件夹。可以的话区分一下在校生和已经工作的人,分别放在两个文件夹。
它依旧先是扫了一遍文件夹,看看都有什么文件。然后自己写了一个脚本,开始批量处理。
不到一分钟,52 份简历整理完毕。每个文件都按“姓名_X 年.pdf”的格式重命名了,一目了然。

工作年限大于 5 年的,单独放在 Senior_Level 文件夹;在校生和已工作的,分别放在两个文件夹。真的做到了理解内容 + 批量处理。

到这里,操作本地文件的能力已经很清楚了,和 Claude Cowork 一样,给它授权一个文件夹,可以自主编辑、新建、删除文件。不需要上传云端,本地完成,而且可以理解文件的内容,批量化处理。
另一个核心能力是——接管电脑,自动化操作网页。
我有个痛点,做选题要盯财经新闻。每天打开网页,翻啊翻,看到 AI 相关的就复制链接、记标题,纯体力活。
这次可以扔给它了:
帮我去这个网站 :
https://finance.sina.com.cn/7x24/
找带 AI 的帖子。附上链接,将链接、标题存下来。找五个,可以翻翻页,用浏览器专家

它调用了浏览器专家,自己列了一个执行计划:
然后它就打开页面、滚动、筛选、翻页,全自动。

最后输出了一份整理好的清单:5 条 AI 相关新闻,带链接、标题、内容摘要,时间戳都标好了。
这种重复性的信息搜集,终于可以外包了。
上面的桌面级的 Agent 可以代表通用能力,那么 Expert Agents 要解决的问题就是,把每一个人的专业经验封装进去,让 AI 按你的标准干活 ,其实和 Skills 是一样的理念——预配置好的 AI 专家。
将常用配置保存为可复用模板——指令、模型偏好、Agent 行为,一次配置,反复使用。
市场上已经有很多现成的 Expert Agent:

我用故事视频生成这个 Expert Agent 试了一下。
我之前做的表情包扔进去。

它让我选主题。我选了周一到周五打工人情绪过山车。它又问:
你要什么形式?

等等,它还会做视频?
我本来只是想要几张图的。但转念一想,既然它说会,那就考考它呗。
我选了动态视频。
重点来了,因为我调用的是「故事视频生成」这个 Expert Agent,它已经预配置好了整套工作流。
选完之后,它先列了一个任务清单:

哟,还挺专业,知道做视频要先有脚本、再有角色设定。有了角色参考图,后面 5 天的画面风格才能统一。
接下来它开始逐帧生成画面。

一周五天,5 张图片全部生成完后,它开始同时跑视频生成和音乐生成。

音乐生成完了,输出路径标得清清楚楚:output/bgm.mp3。
这效率可以啊,知道视频和音乐是独立的,不用傻等。
几分钟后,它告诉我:
🎉 搞笑漫画视频制作完成!
我点开一看——流程是对的,画面也生成了,音乐也配上了。
但有个问题:周三和周四的情绪反了。
周三画的是开心加油的样子,周四反而比较平淡。
不对啊,周三应该是“周三综合症”,平平淡淡、半死不活的状态;周四才应该开始兴奋,因为明天就周五了。
我在对话框里反馈:
周三周四有点奇怪,视频里周三的状态应该在周四,周三应该也不算开心,平平淡淡的。另外每天之间可以有个简单的转场。
它说,明白了!然后重新生成了周三和周四的画面,还加上了转场效果。

切屏刷会儿视频,V2 出来了,这次符合我的需求!
如果用 Claude Code 来做,会怎么样?
Claude Code 是我日常用得最多的工具,写代码、改 bug、做文档,基本离不开。但让它做视频?
我试了一下,把同样的需求扔给 Claude Code:
帮我做一个打工人周一到周五情绪变化的短视频,30 秒,带背景音乐。
Claude Code 的回复是这样的:

嗯,很 Claude,很专业。。
但问题是,这些都需要自己去配置环境、申请 API Key、处理各种报错。
而 MiniMax Expert Agent 把这些全包了。
你不需要知道背后用的是什么模型,不需要配置任何环境,你只需要说“我要什么”。它已经帮你配置好了:
咱不用管这些,直接用就行。
更有意思的是,你可以自己创建 Expert Agent。

比如我之前写过一套南亚新闻的翻译规范 skill,里面有专有名词对照表、表达习惯、质量评分标准。
我把这些文件打包成 zip,拖进去,它自动解压、读取、理解结构,几秒钟就配置好了一“南亚翻译专家”。

以后翻译南亚新闻,直接调用这个专家就行。
你花了三年积累的行业 knowhow,可以打包成一个 Expert Agent,让新人也能快速上手,让你自己也能批量复用。
用下来,我还发现了一些小功能:
一是断点续写,任务跑到一半断了,可以接着跑,不用从头来。
二是异步运行,它可以同时跑多个任务,不用排队等。相比 Claude code,我切屏(摸鱼)的时间更久了。
三是安全机制很合理,不用盯着它干活。
整体感受是:省心。
你不用知道什么是 API,不用配置环境,不用非得写代码。就当它是一个能干活的助理,你说想要什么,它负责去做。
但也有需要注意的地方:比如,描述太简单的话,细节会有偏差。我一开始只说“情绪过山”,它就自己脑补每天的状态,脑补得不一定对。后来我写清楚“周一到周五每天都很伤心,不要开心的音乐”,才做对。
所以关键还是:你得知道自己想要什么,并且说清楚。
目前,MiniMax Cowork 免费体验中,Mac 和 Windows 都有桌面端,推荐大家可以去试试。
传送门:
国内:https://agent.minimaxi.com
海外:https://agent.minimax.io
这次,MiniMax Agent 2.0 一起发布 Desktop App 和 Expert Agents。
这是 MiniMax 对「AI 原生工作台」的定义:Desktop App 提供执行能力,Expert Agents 提供专业能力,两者组合才是真正的生产力工具。
不是你去学 100 个软件,而是一个 Agent 帮你串联所有工具。
想想一下,你带薪休假,MiniMax Agent 替你上班(监控数据、生成报告、发布内容),AI 进入人的环境,替你干活。
文章来自于微信公众号 “夕小瑶科技说”,作者 “夕小瑶科技说”
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md