Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?
7665点击    2025-03-09 12:48

上线12小时,


Manus从第一个通用Agent变成了第一款自媒体比技术从业者先发现和评测的AI产品,评论好坏掺半。


最明显的两个观点是效果虚假,没有技术报告,很多好的Agent已经能做到这一点如何那么厉害的话,为什么英文媒体们没有报道


后者应该很难辨正,但是前者我觉得还是可以燃烧几个 GPT Pro账号,来真金白银试试看 Manus 的效果如何。


所以就有了这篇文章,我挑选了5个中文问题和5个英文问题,其中中文问题都是大半都是 @赛博禅心 提供,感谢感谢~。而英文拿的是 Manus 提供的 Use Cases。


按照同样的输入在OpenAI o1 Deep Research运行, 并且因为英文是 Use Case,不知道实际成功率。那这5个问题我会重复运行3次。主要是还没蹲到验证码,山不向我走來,我就向山走去。


Here we go!


问题一、整理一份逐月编年史,纪录从2022年到现在,AI 行业每个月都发生了哪些事情。整理完之后,再从现在的视角回顾下这段历史


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


很可惜,Manus开局不利,卡在了某乎的扫码界面。从它执行过程中看它会把每个季度做成代办,然后将搜集到的信息写到 event.md,每完成一次代码就会更新一次 todo.md。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


这种用 markdown 作为进度记录和更新的方式,之前在 cursor 里使用过。一般来说这种多Agent系统会有一个Plan Agent专门负责进程管理。Manus这一点还是有按照自己的理解来搭建。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


而 o1 Deep Research 解决这搜索类问题还是相当简单的话,除了把当前时间当作是2024外,每个月的关键信息都没有产生幻觉。


PS:因为这个两个 Agent 的执行过程都有可能较长,我会尽可能把能看清的截图放进来。而这十个问题的 Manus 链接和Deep Research 的完整截图我就放到链接,一样是私信我发送Manus就可以获取。


问题二、你是一个严肃媒体,写一篇爆款的公众号文章,要有百万阅读的潜质,讲这个产品,图文并茂的 https://manus.im/


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


除了开头和结尾,坦白来说,Manus 这篇应该不太能算合格的公众号文章,没有成功配图,中间的文字更像是一行行短的宣传语,就像这句 “无论什么主题,Manus都能帮你深入多渠道搜集信息,给你提供既全面又有见解的研究报告。市场分析、竞品研究、学术文献综述,它都能胜任。”。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


来看看 o1 Deep Research 的表现吧。同样,也不太算一篇完整度很高的公众号文章,但是单个段落表达的语义更加完整,而且开头和中间都有配图吗,完成度是比 Manus 要高上不少的。我挺喜欢这句:“Pepper机器人是一种实体AI助手形象,体现了AI助手在现实场景中的应用;而Manus以纯软件形式,实现了类似助理职责的全面覆盖。”


问题三、帮我写一个DOOM的网页版游戏,高保真,我可以用鼠标和键盘来玩


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


这就是 Manus 做出来的 DOOM 网页版,真的做到了把游戏部署到了直接访问的域名,虽然 UI 比较简单但是地图、操控台、关卡信息等都齐全了,视角移动和上下左右也是好用的。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


强烈建议都看看完整的生成过程。这道题应该算是 Manus 的舒适区了吧,它背后有 Qwen 和 Claude 的支持,含金量懂得都懂。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


o1 Deep Research 在生成游戏方面就有点拉了,我前后尝试了3次,第一轮生成的代码都是有问题的,且后续对话无法修复。相信不少人也想看看 Claude 3.7 能不能完成这任务,我又花了点钞能力。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


可惜,在 3.7 上我没有跑通。。。


问题四、帮我做一下介绍小米 Su7 十页的 PPT


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?



这个问题应该是比较出名的 Case了,Manus做出来的是 html 版本的 PPT,有有限的篇幅里面准确表达了su7的热点,整体配色跟小米很配,有3处字体排版错误。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


o1 Deep Research 就有点拉垮了,用配图和排版文字来做PPT,虽然图找的挺准的,还找了特斯拉来对比,目前来看 o1 Deep Research 的长处还是集中在信息搜索、搜图和文本编写。


问题五、我是大学一年级的理科生,刚学习了微积分和线性代数,具备一点点python基础。请帮我写一本《大模型:从入门到精通》的书,要确保内容详实,有公式、有代码、有图示,章节清晰,内容完整,让我这种小白人士能够轻松学习。


这种问题我愿称之为许愿机,是那种一看就觉得AI目前应该还不能做到这个任务的怪异感。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


很可惜因为上下文,Manus 刚刚写到第五章,比起 o1 Deep Research ,Manus给出的代码案例相当详细。而且很有意思的是,Manus真的是现学的系统大模型基础知识。

Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


o1 Deep Research 一共写了7章节,可以说是有模有样的,有公式、图、代码和案例,甚至还可以加上测试题。


中文Case告一段落,单论这几个 Case 来说,Manus 跟 o1 Deep Research应该是打平,但PPT生成、Doom Web游戏里 Manus 完成率明显更高,也可以变相说明 Manus 支持的工具种类比 Deep Research 应该是多上不少。


我们马上进英文 Case,英文 Case 里面有音频,自制 logo 、还能直接去打比赛,这也是我最想用 o1 Deep Research 挑战的。


问题六:我需要一份4月15日至23日的7天日本行程,从西雅图出发,预算为2500至5000美元,我和我的未婚妻一起。我们喜欢历史遗迹、隐藏的宝藏和日本文化(剑道、茶道、禅修)。我们想看奈良的鹿,并徒步探索城市。我计划在这趟旅行中求婚,需要推荐一个特别的地点。请提供详细的行程和一本简单的HTML旅行手册,包含地图、景点描述、基本日语短语和旅行小贴士,以便我们在整个旅程中参考。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


左边是Manus、右边是Deep Research


这个例子就没什么悬念了,同样的输入下,Manus给出的流程相对简单,o1 Deep Research是细化到预算、出行方式、酒店都推荐上了。


问题七:帮我设计一个音效,混合鸟鸣和蒸汽的声音,持续时间大约3秒。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


Manus的思路很清晰,上来就先安装常见的音频处理环境(ffmpeg 和 sox),中间安装失败了改用 Python,接着去网上下载了鸟鸣声样本和蒸汽声音,并完成裁剪和合成。


birds_with_steam,卡尔的AI沃茨,3秒


可惜的是鸟鸣声不是很明显,我听了很多遍,音频的中间部分确实是有鸟叫。

Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


从 o1 Deep Research 的思考过程上看,它是计划用python实现的。但是在保存成文件这一步反复失败,我想通过Claude来修复输出的wav,可惜也同样失败了


问题八、这是我们的公司网站 https://techcrunch.com。基于其设计风格和视觉语言,请创建一套我们可以在PowerPoint演示文稿中使用的图标。这些图标应丰富、吸引人,并保持与我们网站一致的设计语言。

Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


很明显 manus 抓到了那一抹绿,对于图标设计它自己有自己的理解,还专门写了一套准则


  • 亮绿色(#00D301 或类似):用于主背景和品牌标识
  • 黑色:用于导航栏、文本和内容区域
  • 白色:用于深色背景上的文本和标志元素
  • 强调色:用于类别标签和按钮的各种颜色


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


分析网页的主要风格对 o1 Deep Research 的挑战性不高,生成出来的图标明显的DALLE味道,要挑的话就是出来的图标没有进行切割,也没有不同尺寸的大小。


问题九、参加 Kaggle 房价预测竞赛。创建用于数据预处理和模型构建的 Python 脚本,然后生成具有竞争性得分的提交文件。


又是一个许愿级别的问题啊。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?



我原以为是从网页访问、到模型训练、到提交结果都是由 Manus 完成,看完了完成输出过程后,中间只因为下载失败,手动发送了数据集。其他时候完整经历了几次模型的迭代优化,还能根据Kaggle网上的要求输出对应的提交文件。在我看来完整度已经很高了。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


o1 Deep Research的思路很6,登陆不了Kaggle,就选择绕开限制,在Github上使用对应的数据,比较可惜的就是生成了具体的代码脚本之后,没能把具体的结果数据提供给我


问题十、我是一个中学物理老师,正在准备教授动量守恒定律。你能制作一系列清晰准确的演示动画,并将它们整理成一个简单的演示html吗?


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?



太顶了,这应该是这10个案例里面,Manus最让我惊喜的一次。其实看了上面九问,其实心中有预期,对于定律本身的信息收集来说,两个Agent都不会有问题。难度集中在用html搭建演示动画。跟中文的Doom一样,Manus很擅长在有限的环境完成代码编写和测试的。


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


o1 Deep Research 又帮我写一份教材,代码也没有,而且用文字来模拟动画,得亏它能想得出。


英文版的Case里,Manus整体变现是要比 o1 Deep Research 好不少。


写在最后


测完这十个问题已经是凌晨,


我觉得这时候已经可以回答标题里的问题了,


通用Agent真的抛弃OpenAI了吗?


我觉得没有,o1 Deep Research代码差一点,别的还是能打。


Manus会是纯套壳没有自己的优化吗?


我觉得是否定的,因为有一些细节,目前来说 Claude 和 o1 的表现并没有它好。


那它是不是就是一个代码写得好的Agent呢?


我觉得也是否定的,它在信息搜索、视觉设计、文本编写里面很接近 o1 Deep Research。


如果让我来形容它,我会觉得Manus是正在接近通用的Agent,现阶段的它可能还有些不足。


但无论如何,它都给我们提供了一个新的方向,这已经足够了。


接下来能掀起什么样的风浪,


我拭目以待。



文章来自微信公众号 “ 卡尔的AI沃茨 “,作者 AI沃茨


Manus、OpenAI Deep Research 20个用例大横评,通用Agent抛弃奥特曼了。。。吗?


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


3
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md