从Manus到MCP:25年AI的三大新趋势

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
从Manus到MCP:25年AI的三大新趋势
5150点击    2025-03-18 15:00

25年开年以来,AI发展如火如荼,DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷,眼花缭乱。


这里我将最近一个月以来的思考总结一下,对25年AI发展趋势做几点预判。


(1)Manus:Agent元年的一次抢跑


Manus推出之后,我们第一时间拿到了体验账号,进行了充分的体验测评。


先说结论:虽然Manus目前还有种种不足,但它的产品设计思路创意满满,值得我们给予充分的肯定。


从Manus到MCP:25年AI的三大新趋势


Manus的核心架构基于“虚拟机+多Agent协同”模式,通过整合多个底层大模型(如GPT-4、Claude 3等)的API,实现任务的动态分配与模型调用。


Manus突破了传统AI助手仅生成建议的局限,实现了从“需求输入”到“成果交付”的端到端闭环。


Manus提出“Less Structure, More Intelligence”的交互理念,通过无代码化的自然语言接口降低用户使用门槛。


从Manus到MCP:25年AI的三大新趋势


与此同时,Manus使用一个外置的markdown文件来管理Agent的任务规划,并且将阶段性的工作成果存储为独立文件,这也是一个非常有趣的创新点。


从Manus到MCP:25年AI的三大新趋势


从Manus到MCP:25年AI的三大新趋势


(2)Manus的不足与缺陷


Manus在MultiAgent的道路上提供了一种非常有趣的思路,但现在依然存在一些显而易见的不足之处。


首先是“幻觉累加”的问题。


Agent的本质是多次大模型问答的串并联。如果单次大模型问答的准确率是90%,串联10次的话,最终Agent回答准确的概率是0.9^10,只有1/3左右了。


在下面的案例中,Manus的任务是针对某上市公司进行财务数据分析。Manus很聪明的import了data_api模块,准备从雅虎提供的接口中调取财务数据。


但是在process_financial_data函数中,manus竟然把revenue、gross_profit等数据直接“硬编码”到了代码中,让人猝不及防。


而且经过验证,这里的数据有部分是错误的。


如果原始数据出错了,那么后续无论分析得多么深入、图表做得多么fancy都失去了意义。


从Manus到MCP:25年AI的三大新趋势


Manus的第二个问题是可供大模型调用的工具不足。


下面这个例子中,Manus的任务是写一篇关于“小米Su7”的市场分析报告PPT。


Manus完美的拆分了任务,并且检索了大量新闻,但是最后它无法生成一份PPT,因为它无法调用Office软件。


目前Manus输出的内容形式多为纯文本或者网页,还无法和人类工作流进行完美融合。


从Manus到MCP:25年AI的三大新趋势


Manus遇到的第三个挑战是小院高墙的互联网生态。


互联网上有很多优质信息是存放在“围栏”中的。


比如当我们让Manus去分析比较市面上所有AI智能眼镜的性价比时,它聪明的找到了对应商品的淘宝网页。


但是当Manus想要打开具体产品页面获取价格性能等详细信息时,淘宝判定它为机器人,并拒绝了Manus的访问。


从Manus到MCP:25年AI的三大新趋势


无独有偶,当我们让Manus为一家非上市公司进行出具商业分析报告时,Manus为了获取公司的最新融资进展,访问了CrunchBase数据库。


但是Manus的访问被CrunchBase判定为机器人,随后被无情的拒绝了。


互联网看似公开透明,实则存在大量类似小院高墙的情况,优质信息往往就存放在这些高墙之内,Manus无法直接获取,这无疑阻碍了Manus的工作效果。


从Manus到MCP:25年AI的三大新趋势


尽管有着种种问题和挑战,Manus依然给大家描绘了MultiAgent的巨大前景,打响了Agent元年的第一枪,值得我们给予充分的肯定。


在Manus占据大家视野的同时,海外AI大厂究竟做了哪些技术储备呢?


(3)OpenAI CUA:一个会自主操作电脑的Agent


在今年的1月底,OpenAI发布了由其新模型CUA(Computer-Using Agent)驱动的AI智能体Operator。


CUA模型融合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力,能够将任务分解为多步骤计划,并在遇到挑战时进行在我调整和纠正。


简而言之,CUA就是一个会操作电脑的Agent,它的运作原理非常直白且简洁,如下图所示。


从Manus到MCP:25年AI的三大新趋势


首先,CUA会同时接受两种模态的输入:其一是文本指令,其二是屏幕截图。


CUA会同时处理这两种信息,并且生成一系列动作指令,比如“点击屏幕上坐标为(300,200)的点,并且输入XXX,按回车”。


电脑接受到指令并完成操作后,会将新的屏幕截图与新的任务指令返回给CUA,如此循环往复,直到获得最终答案。


那么CUA目前操作电脑的能力达到了怎样的水平呢?


根据OpenAI的官方测评,CUA在操作电脑和操作浏览器这两个场景上,相比上一代SOTA都有了巨大的性能提升。


但是相比人类而言,依然有着较大的差距。


换句话来说,目前顶级的Agent依然没有办法像一个成年人一样正确的操作电脑,但我相信这个现状在今年内就会发生质变。


从Manus到MCP:25年AI的三大新趋势


(4)Anthropic MCP:AI时代下的TCP/IP协议


刚才在分析Manus的缺陷时,提到了“工具不足”的问题。


Anthropic显然也意识到了这个问题,并在去年年底推出了MCP来从根源上解决这个问题。


MCP的全称是Model Context Protocol,它定义了应用程序和AI模型之间交换上下文信息的方式,


这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型。


MCP之于AI,有点类似于TCP/IP之于互联网。


从Manus到MCP:25年AI的三大新趋势


MCP有三个重要特点:


标准协议:将AI与所有工具层的交互接口统一成一个标准


动态发现:AI能够按需寻找并调用能够完成指定任务的工具或服务


双向通信:AI与工具之间的通信是双向的,有状态的。AI既能从工具获取数据,也能向工具发送指令。


当前越来越多的工具及服务开始接入MCP,呈现愈演愈烈之势,包括Google Maps、PGSQL、ClickHouse(OLAP数据库)、Atlassian、Stripe等等。


从Manus到MCP:25年AI的三大新趋势



从Manus到MCP:25年AI的三大新趋势


在Smithery平台上你可以轻松查找不同功能对应的工具及服务。


随着越来越多的Server接入MCP协议,未来AI能够直接调用的工具将呈现指数级增长,这能从根源上打开Agent能力的天花板。


从Manus到MCP:25年AI的三大新趋势


(5)2025年AI发展新趋势:后训练、RL、MultiAgent


这里我结合最近几个月以来的观察和思考,总结一下25年AI发展的几点重要趋势。


第一,预训练即将终结,后训练成为重点。


这其实已经是行业共识。去年年底时,Ilya在NeurIPS大会上提到一个重要观点:数据是AI时代的化石燃料,因为我们人类只有一个互联网。


与此同时,在今年DeepSeek R1的论文中,提到了后训练将成为大模型训练管线中的重要组成部分。


从Manus到MCP:25年AI的三大新趋势


第二,针对后训练而言,强化学习将成为主流,监督学习的重要性逐渐下降。


DeepSeek R1带来最重要的启发是:纯粹的RL可能是通向AGI的正确路径。


随着TTS的增加,大模型会自我涌现出复杂的推理行为,而无需刻意引导。


如下边右图所示,横轴是大模型RL的迭代步数,纵轴是单次问答的token长度。


我们可以看到,随着大模型RL步数的增加,大模型会自主的从“快思考”变成“慢思考”,从最开始每次回答100个token,到最后每次回答接近10000个token。


从Manus到MCP:25年AI的三大新趋势


DeepSeek团队将这种现象称为“self-evolution”,并认为它是“the emergence of sophisticated behaviors”。


具体是哪些复杂行为的涌现呢?DeepSeek也给出了答案,比如:self-verfication, reflection等。


这个发现对于我们来说有着重要的启发。未来监督学习在AI训练中究竟应该扮演怎样的角色?监督学习是否反而限制了AI解决问题的能力?


是否不应该让AI通过模仿人类的思维方式来获得智能,而是让AI发展出更加原生的智能?


这些问题,都有待整个AI行业通过实践来给出答案。


第三,MutiAgent是确定性的大趋势。


如果将AI和人脑进行类比的话,大模型就像是人脑中的“前额叶”。


众所周知,前额叶主要负责高级认知功能,比如注意力的分配、思考推理、决策等。


但是仅仅有前额叶,大脑是无法处理复杂任务的。


我们需要有颞叶来进行听觉信号的解析,需要顶叶进行阅读和算术,需要小脑来进行运动协调,需要海马体来进行记忆索引。


MultiAgent的定义恰恰就是让多个不同的模型之间互相协调,从单独的“前额叶”走向“完整的大脑”,从而处理更加复杂的现实任务。


在这个蓝图中,MCP就起到了非常重要的作用:协调统一大模型与各工具之间的数据通信接口。


从Manus到MCP:25年AI的三大新趋势


(6)结语:抓好扶手,未来已来!


2025年是AI Agent元年,Manus的出现打响了第一炮。


无论是OpenAI的CUA还是Anthropic的MCP都指向了一个共同的未来,未来2年AI的发展速度将非常陡峭。


抓好扶手,未来已来!


文章来自于微信公众号“Alpha Engineer”,作者 :费斌杰


从Manus到MCP:25年AI的三大新趋势

关键词: AI , Manus , MCP , agent
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales