Manus的开放注册标志着其商业化进程的正式启动。但是,Manus到底擅长什么?
如果检视Manus的精选用例库,我们会发现约一半的用例是咨询报告(图1),诸如,《B2B供应商寻源报告》、《成衣行业AI产品分析》、《制定门店销售提升策略》等等:
图1:“出报告”是Manus引以为傲的场景
咨询报告市场甚为肥厚。据Forbes统计,仅管理咨询行业2024年在全球的市场规模就超越了1万亿美元(麦肯锡 135亿、BCG 120亿、Bain 60亿)。而一份由3~5个聪明的麦肯锡顾问花上十几周时间打磨的方案报告往往要破费甲方大几十万乃至数百万美元。
对于Manus而言,这种文本与逻辑密集、暴利且高大上的领域是理想的颠覆对象。毕竟,相较于扮演客服小姐姐或程序员大叔,用$19/月的Agent扮演藤校背景、年薪$200K+的麦肯锡顾问是更令投资人信服的AGI故事。所以,Manus对咨询报告市场这块“肥肉”的图谋也并不令人意外。
沙盒
虽然Manus自信满满,但它真的能胜任管理咨询问题吗(例如下题)?
“如何在12个月内提升Tesla的利润率?”
处理如此复杂的战略问题需要专家洞察、企业专有数据(工厂、产线、设备等)、以及第三方机构的Benchmark。而网络搜索(Web Search),对于交付质量要求极高的管理咨询而言,并不是非常可靠的数据源。但该数据源(偶尔结合极少量的企业专有数据)几乎支撑了Manus所有的咨询报告任务。
好在当下,Manus与用户之间的关系也没那么严肃:Manus不会对交付质量负责,而用户也没有付出高昂的费用。这种不严肃的关系,基于不那么可靠的数据,产生了众多“没那么严肃”的报告,例如《查询YC的B2B初创公司》、《橡胶垫的供应商寻源》、《Karpathy.ai的SEO优化方案》等等;这些报告也许有点用,但不多。
于是,我们看到一个有趣的景象:“不可靠的数据”和“不严肃的报告”打造了一只廉价的沙盒(图2),将Manus对管理咨询的图谋困囿其中。
图2: 困囿Manus的沙盒
也许有人会说:“尽管数据层面表现不济,但Manus的“芯”是好的。一旦数据齐备,其推理能力还是有一战之力。”
如果让我说,困住Manus的不仅仅是数据。
飞轮
也许在未来的某天,AGI终将颠覆人类的思维方式。但至少在当下,评价一个Agent的优劣仍然取决于其是否能够完美“复刻”模仿对象的思虑和行为。
以此类推,在数据之外,Manus图谋的成败则取决于其是否能驱动Hypothesis飞轮(Hypothesis-Driven Flywheel)。
由麦肯锡启用于上世纪六十年代,Hypothesis飞轮是驱动管理咨询项目的核心方法论。而该方法论得以延绵六十余年而不衰的主因是其具备一整套应对多样、复杂业务的Hypothesis演进机制。
如果让顾问驱动飞轮解决下述问题,其过程将大致由三部分构成(图3):
“如何在12个月内提升Tesla的利润率?”
图3:Hypothesis飞轮
其一,预判(Initial Hypothesis)。顾问利用先验知识(公开资料、行业经验、对Tesla业务的的理解等),带着对问题根因的预判启动项目;
其二,演进(Evolving)。顾问将Hypothesis拆解为指标,并从指标分析中提取洞察以验证Hypothesis,验证包括正反两个结果(图4):
图4:Hypothesis演进示例
飞轮周而复始,以“Hypothesis->Analytics->Insights->Hypothesis”的迭代闭环不断演进,直到“Aha!Moment”的出现;
其三,“Aha!Moment”。当顾问发现了清晰、由数据支撑的问题根因,即可依据飞轮迭代过程中所产生的细节产生最终建议。
所以,Manus能否复刻顾问的解题过程?
手办
答案是:NO。
如果乍一看,Manus的复刻还有点似模似样:其表现出了对飞轮方法论的一定认知(图5);也生成了优化产线效率、打造韧性供应链等还算靠谱的预判。
图5:Manus生成的解题规划
但如果细看,我们会发现Manus其实并未真正转动飞轮,仅仅完成一圈迭代后便草草地给出了最终建议(图6)。
图6:Manus仅仅完成了一次迭代
而在这个过程中,对于复刻顾问而言,Manus至少存在“三不”问题:
首先,Manus的方法论不能满足飞轮。在项目开始之初,Manus会在“todo.md”文件中一次性生成完整规划并在后续严格执行之。而Hypothesis的演进是一个动态搜索过程,顾问会随时调整规划,更新和终结既有Hypothesis,或构建新的Hypothesis(图7),因此,Manus和飞轮存在方法论级别的矛盾。
图7: 一次性规划 vs 动态规划
其次,Manus的执行不沾业务。在任务规划之后,Manus更热衷于在任务间传递基座大模型所生成的内容,而对内容本身并没有真正的见解,也自然谈不上优化。垂直领域的Agent至少还能利用知识图谱或基于业务数据的Ground Truth以校验思考过程,但Manus在这方面的能力几乎为零(图8)。
图8:Manus基本不沾业务
最后,Manus对推理质量并不负责。Anthropic在其论文《On the Biology of a Large Language Model》中阐述:面对Hypothesis式的验证,如果大模型在CoT过程中遇到障碍(例如,没有合适的计算工具),其会“以终为始”编造推理(Unfaithful Motivated Reasoning)以迎合Hypothesis(图9):
图9:因为大模型无法求解cos(23423),其会编造一个cos(23423) 约等于0.8以“迎合”最终答案
而Manus对此类编造并不负责任。例如,为了支撑Hypothesis“优化产线效率提升单车利润”,在完全无法获取真实数据的情况下,基座大模型在推理过程中编造了洞察: “Tesla的工厂利用率为70%,不及85%的行业标准”。虽然“70%”和“85%”这两个数字完全没有出处,但Manus仍然将其作为正向洞察以支撑Hypothesis。
这样看来,“三不”的Manus对顾问只是“手办”级别的模仿 - 虽然外壳看起来似模似样,但里子却有天壤之别。
总而言之,Manus就犹如沙盒中的一只手办,沙盒限制了其数据和任务的范围,而手办级的复刻对于高级人类思虑和行为而言则更像个玩具。也许技术的进步可以突破沙盒的界限,但玩具式的思维却很难改变。
当然,Manus的问题也并非其独有,各类Deep Research也或多或少地面临类似的挑战。但对于图谋咨询报告市场的Agent而言,立足于转动飞轮可能是破局的良方。
文章来自微信公众号 “ 老油杂谈 “,作者 笔者老于
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md