故事从去年10月26日说起,在那天,黄叔非常喜欢的Arc浏览器被创始人Josh Miller决定战略性放弃,开始开发新的AI Agent浏览器Dia:
同一天,HideCloud和Peak刚从武汉飞回北京,落地后,HideCloud震惊的发现,打开手机刷的第一条推特就是上面这条,因为,此前的两天,他们在武汉决定了终止AI浏览器的研发工作,莫名其妙的中美两只团队在同一刻达成了共识。
为何放弃AI浏览器?
添加图片注释,不超过 140 字(可选)
其实去年做AI浏览器还是挺容易理解的决定,Arc也是2023年Product Hunt年度产品的第二名(第一是GPT4):
但是在实践中,团队发现个AI浏览器有一些问题,首先是浏览器是给单用户用的,那一旦AI要开始干活,咱们就只能眼睁睁的看着它,变成AI要和我们抢浏览器用了,这肯定不对。
对的应该是:AI需要用浏览器,但不是在浏览器里面用,AI Should use browser,not in browser,那在哪用呢?在云端用!The browser should be in cloud。
所以我们现在看Manus,会发现右侧AI在自己操控浏览器:
在做AI浏览器的过程中,团队主营业务自己也基于很多场景做Post-training,在这个过程中发现基座模型越来越强大,其中有一个非常重要的信号:
“Less structure,more intelligence”
这句话很重要,对内构成了整个团队的凝聚力,让Manus团队顶过了过去的三个月,最终把它做了出来,也是Manus和其他产品不一样的关键:
Manus尽量减少人工对模型的控制,只需要做好铺垫,让AI自己发挥,反过来让AI教我们做人。
(这句话在Manus官网的底部)
这样,只需要基础模型能力提升,数据增加,很多能力会自然演化出来,不需要通过workflow的方式强行教会AI。
这个非常反常识,也确实因为这样,初期很多投资人看完演示后会问:你们团队有多少人做workflow?
Manus的团队会说:没人,是模型自己做的!结果投资人都不相信。
但这是Manus的底层信仰!也是AI Agent Manus诞生的契机!
在这个信仰之上,做好Manus,需要给它三个东西:
第一:Give it a computer
就像招一个员工,入职就得给他配电脑,不然他没法办公呀!电脑有了,权限也给配上!
第二:Give it data access
有了电脑,还要让他能上网,能看公司的知识库,于是给接入了大量的私有API,这样才能获得权威的结构化的数据,后面才能处理。
第三:Give it some training
再做一个入职培训,包括有个mentor带着(对Manus来说就是我们用户啦),时不时给它反馈!
这样,Manus就可以开始干活了,随着在我们手下打工,还能持续进化!
简单说完上面的故事后,为何Manus是这个团队率先做出来了?这就是天时地利人和了。
天时:前面说了,整个公司在做产品过程中,发现了一个很关键的非共识:“Less structure,more intelligence”,这里很重要的是:模型的intelligence开始进化到了可以做Agent的阶段!
这是技术成熟度,开始和市场需求可以进行契合的时间点!
地利:此前正好做AI浏览器,很多前置探索都已经积累下来了,包括整个初创公司很扁平,决策可以很快贯彻下来,资源协调非常快!
人和:这个我感受最深刻,HideCloud和Peak两人在分享时配合非常默契,经常有无声的配合,这种有共同目标,一起冲刺的团队真的令人羡慕!
不光配合默契,两人的能力也到了能驾驭这款产品的水准,1+1>2。
诚然,现在的Manus还是个preview的版本,确实不建议对它抱有过于乐观的预期,Manus团队也坦言有很多工作可以优化,但每一次Manus还是会惊艳到大家。
黄叔的测试里,看到它确实会用多模态看完视频,基于画面分析后给出正确答案,海辛分享的一个案例,在找一个转绘的教程的时候,Manus看着看着网页就点了举报。
对于深度搜索,可以直接生成带交互的网页,让人印象深刻:
也会发现不少失败的案例,比如下面这个Manus提示需要登录Youtube,但我接管后操作被Youtube提示需要换浏览器,我和Manus说过后,它无法实现这个操作,最后用观看视频的描述文字做总结,变通的完成了任务。
也有让生成文字游戏无法实现预期目标,多次修复陷入死循环的case:
回到Manus发布的当晚,黄叔陷入了一种虚无的情绪:如果Manus真的这么牛,那AI编程还有价值么?现场我问了Peak,他很肯定的告诉我,价值很大!
再到今天,这件事情也很清晰了,在底模能力没有显著突破的前提下,Agent类产品可以达到的边界,还是可以预期的,Manus离真正的通用Agent还有距离,但依然很惊艳!
2025年,很值得期待。
说几个花絮,今天黄叔受邀到北京线下参加了人数极少的交流会,原定10点半开始的活动,我9点半就到了,于是我提前见了两位核心成员:HideCloud和Peak
HideCloud说,昨晚3点半才回酒店,回去的时候手机电量说80%,早上起来手机被震动到没电。。。
我问Peak产品发布后兴奋不?他说比起兴奋,现在更多是疲惫。确实最近太辛苦了!
现场是在一个类似于K歌房的多功能会议室里进行的,确实非常的小,最后总共到场的就几个人,都是Manus团队的朋友,黄叔在受邀之列也是与有荣焉:
开场时,两位引领了25年Agent创新的精神小伙,摆出了姿态:和老朋友们聊聊。
最后回应一下争议:没有给媒体费,都是朋友,是自来水。
文章来自微信公众号 “ Super黄 ”,作品 AI产品黄叔
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT