AI Agent爆发前的黎明:Manus不够好,但天快亮了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI Agent爆发前的黎明:Manus不够好,但天快亮了
7587点击    2025-03-30 21:54

AI Agent爆发前的黎明:Manus不够好,但天快亮了


Manus能撑起5亿美元估值吗?


今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


由于Manus处于内测阶段,仅以邀请码形式开放使用,一度让邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员排着队等测评。


与此同时,业内对Manus的评价从最开始一边倒的追捧,开始有了越来越多质疑和批评的声音。


对Manus的争议一方面来自于这个团队并没有非常强的技术能力,大模型用的Antrhopic的Claude、之后与阿里通义千问合作,被质疑是“套壳”产品,没啥门槛。公司打出的营销话术“世界上第一个通用AI agent”明显不属实,国际开发者社区早就有这样的general AI agent产品,加上各种媒体和自媒体早期夸张的修饰用词,反而引发了不少人对Manus激进营销的反感。


但是在另一方面,一些投资人和从业者却看到了非常积极的一面,认为Manus在产品交互上确实做得可圈可点。他们指出这个年头做demo容易,做出一款好产品却很难,创业公司做推广的时候大胆一点没什么不好。


而更加让人振奋的是,Manus虽然不够好,但却让人看到了AI应用爆发前夕的黎明曙光。


这篇文章我们就来聊聊Manus引发的热捧与争议、AI agent的技术发展路线、目前面临的技术瓶颈、什么是一款好的AI agent产品,以及通用AI agent何时才能来临。


01 测评Manus


Chapter 1.1 开发者测评Manus


硅谷101也拿到了几个邀请码,团队的小伙伴们都测试了一遍,但效果确实比期待中差了不少。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Jacob
硅谷101后期负责人:
我用Manus找一下稿件中的信息来源,我觉得对于GPT是更加聪明了一点,但是很简单多任务它花了半个小时才跑完。
陈茜
硅谷101联合创始人兼视频主理人:
我让它帮我整理分镜稿,感觉它的审美像实习生,而且做文章的分镜图时卡了21个小时,现在还卡着。
泓君
硅谷101联合创始人兼视频主理人:
让Manus整理微信文字稿时出现了幻觉问题。
王可倚
硅谷101特约研究员,《创客人生》主理人:
它最开始听懂了我的需求,但是执行中途就跑偏了。


我们也邀请了AI agent开发者Nathan Wang来系统性地评测下Manus。Nathan在过去两年有着丰富的AI agent及AI应用开发经验,他希望能量化地表示模型的能力,所以建立了一个测评的机制,并且这个系统也可以去测评其他应用或是模型。以下为Nathan评测的部分内容:


AI Agent爆发前的黎明:Manus不够好,但天快亮了


我主要有三个衡量指标:“准确度”、“可用度”、“完成度”,同时以“研究”、“教育”、“生活”、“数据分析”、“创意性工作”这五项任务归类。


我根据每个指标的表现从1到5打分,表现越好得分越高,表现越差得分越低,最后取三个维度的平均分。


先说它做得好的部分:研究方面为4分,教育方面为4.5分。这两块的能力是非常强的,正确性、完成度都很高。


但这两个领域的结果其实是符合我们预期的,因为ChatGPT、 Claude还有Gemini都是有深度研究的功能,它其实就是在互联网上帮你查找各种各样的信息,根据需求让大模型解释,或者做出一些行动。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Manus AI构架背后用的是其他模型,据传言说是Claude、DeepSeek-R1,Manus会利用这两个模型,根据用户需求生成一个任务列表,然后Manus可以通过编程、互联网搜索,像人一样查阅浏览器上的内容,来抓取信息。


总体来说,Manus更多是通过工具、函数、API来获得信息并总结,或者通过渲染的形式给用户表现出来,比如做成一个表格、执行一些程序等。


但除了研究和教育外,Manus在生活、数据分析、趣味性方面的得分却比较低,“生活”为3.5 分,“数据分析”为2.5分,“趣味性”2.5分。


在我们的测试中,Manus遇到的比较大的问题是,它将不同信源信息整合在一起的能力不是特别强;模型本身的逻辑能力、信息综合能力还不够,尚不足以在用户的实际体验中提供有效的帮助。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


以上是Nathan评测的一部分节选,想看完整版的观众可以收看硅谷101视频或Nathan的微信视频号“硅谷AI领航”。


简单总结下Manus的能力:在简单一些的任务上,它给到了很丝滑的通用AI Agent的交互产品形态,虽然Nathan认为这个产品在硅谷开发者社区中很早就有公司有人在做了,但是对非开发者2C用户来说,当看到Manus页面上展示出它真的在加速看视频、读取文档、访问不同的网站搜索信息时,确实让用户第一次感受到了“AI agent”在虚拟世界充当机器人、帮用户完成一系列任务的潜力,还是非常惊艳的。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


当然对于稍微有难度的任务它完成得不太好,甚至出现了卡壳几十个小时的现象,说明它还处于非常早期的产品阶段,之后还需要很多的迭代。


Chapter 1.2 2C产品的用户阈值与“叫醒铃”


也有嘉宾认为,我们应该对AI初代产品有所谓的“阈值”概念。在到达AGI之前,也许不会有准确度100%、完全准确不出错的通用AI agent。大家需要给AI agent一些时间和耐心,不同人群的需求,会从简单到复杂逐渐迭代地被实现。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


周炜
创世伙伴资本(CCV)创始主管合伙人
前KPCB中国基金主管合伙人:
我认为Manus这个产品超过了用户的阈值。用户要把一个产品作为生产力工具,它必须要超过达到某个满意度以上才可以完整的使用。
ToB端其实有很多AI产品已经有很好的收入了,但是C端来说,大家以前没有感觉到有个产品改善了生活,我认为Manus做到了这点,它把用户体验做得很不错。虽然目前它的能力比较普通,最终也不可能面面俱到,但至少从目前来看,它的一些功能都做得很完善,未来还有继续提升空间。
我们看到一些争议,说它只是AI操纵大师,指挥另外两个AI底层模型来完成任务,这种讨论说明了一个问题,那就是目前AI从业者群体里面有一个很大的误区:在技术上自嗨。
我印象很深的是,乔布斯被踢出苹果又回去后,在一个公开大会上有1000多个工程师,其中一个工程师站起来挑战他说:你又不懂技术,凭什么指导我们、做这个公司的领导者?乔布斯的回答是:我知道如何满足用户需求、用户需要什么样的产品、并且我可以把它卖出去。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


我觉得这就很好地回答了现在对Manus的质疑,在指责它仅仅是一个AI指挥大师的时候,为什么你不去做一个完美的用户界面来实现用户真正的需求?这才是现在AI从业者需要思考的问题,怎么让产品体验超越用户的阈值、能够变成生产力工具,如果做到了这一点,市场认可度就会很高。
Deepseek对全球来说一个Wake-up call(叫醒铃),它告诉大家:原来大模型还可以用这种路径来实现,而不是通过暴力堆叠的路径。而Manus我觉得也是一个叫醒铃,它告诉所有的AI从业者,不要痴迷于技术底层,你要做的是提供一个完整度高的产品,让大家都用起来,最终实现技术平权、技术普惠,如果连老爷爷、老奶奶都开始用它并且觉得好用,这才是目前ToC端产品的大成就。
Manus给了一个非常清晰的信号:大模型底座已经准备就绪了,足够做一个完成度高的产品。所以我觉得现在是非常好的发力时机。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


TensorOpera AI联合创始人何朝阳认为,要做好AI agent产品,有四个纬度:“模型”、“工具”、“数据”、“基础设施”。产品或公司至少要在其中两项占绝对优势,才能保持领先。他认为,Manus占据了“工具”和“数据”这两个优势。


何朝阳
TensorOpera AI
ChainOpera AI联合创始人:
Manus占到了工具的优势,因为他把多个工具缝合到了一起,他可能也有一些独特方式,比如指挥多个agent相互合作。我觉得把各种工具缝合本身就是一个特点,它确实可能用的是其他的底层模型,但它可以收集用户发送的prompt(提示词),对比哪些提示词输出的结果更好,这样就可以帮助它迭代升级。
因为Manus有先发优势,可以早点拿到用户数据,可能会发现哪些agent更重要,然后更快速的迭代它,所以它其实已经在不断升级数据和工具的路上了,这刚好是应用创业者要去做的。
至于模型和基础设施,我觉得跟大厂合作就好了,就不要去四两拨千斤了。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


“技术已经Ready了”,这是我们和很多AI从业者和投资人交流的时候,他们透露出的信号和见解。


02 AI Agent技术发展史


过去一段时间“agent”这个词稍微有点被“太泛化”了,门槛有点过低,所以我们先明确下AI Agent的定义。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


技术人员通常将AI Agent定义为:具有“逻辑推理能力和决策能力”(Reasoning)、“记忆能力和上下文理解”(Memory)、“工具使用能力”(Tools)这三种能力,甚至更进一步说,还需要具备学习使用不同新工具的能力。


Keith Zhai
Tiny Fish联合创始人:
我们自己定义的agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对Agent来说是非常难的挑战。



AI Agent爆发前的黎明:Manus不够好,但天快亮了


我们来看看过去几年,AI生态圈是怎么发展推理(Reasoning)、记忆(Memory)和工具(Tools)这三种主要能力的。

Chapter 2.1 推理能力

Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
AI Agent需要有很强的逻辑能力,因为它最终帮用户执行任务的时候,需要理清楚这个任务该如何决策?用哪些工具?得到信息之后应该做哪些动作?所以推理(Reasoning)是最重要的能力之一。


2022年10月,就在ChatGPT上线的一个多月前,ReAct框架被普林斯顿和Google Brain合作的团队提出。

ReAct是一个将推理和行为与LLMs(大语言模型)相结合通用的范例,这让大模型不仅能回答问题,还能推理并采取行动。简单来说,就是让AI在回答问题的同时,能够执行一些动作,不只是“动动嘴皮子”。

AI Agent爆发前的黎明:Manus不够好,但天快亮了


Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
ReAct所做的事情更加偏向于prompt engineering(提示词工程),他其实是通过设定一些不同的提示词,能让大语言模型按照一定的格式去输出。
比如说第一步是先理解用户想要的是什么,然后再思考下一步要去做什么,同时也告诉模型,有哪些工具可供选择。当模型有逻辑能力之后,它会选择一种工具,比如用户要订机票,那就要去搜索机票相关的信息,然后agent就会通过调用某个工具或API,也可以是模型自己写的功能,来完成这一系列的动作。得到这些信息后,agent还要思考,下一步是要帮用户定这个机票,还是告诉用户这个信息,再让用户来决定。所以所有AI Agent的构架其实都是从这篇论文开始的。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


但当时的最先进模型GPT-3.5的能力相对有限,使得AI Agent的逻辑推理能力并不出彩,错误率很高。


而后来发布的GPT-4在理解能力、推理能力、回答质量都大幅提升。同时2023年3月23日,ChatGPT插件功能Plugin发布,允许大语言模型调用外部工具并开发APT,支持开发者将LLM与数据库、工具和互联网连接。这些都让AI agent的开发者们兴奋不已。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
刚开始ChatGPT只能做一些对话、生成文本,但后来它就可以搜索互联网上的内容了,还可以让它接入不同的数据库去提取信息,或者使用一些工具。
那时开发者社区沸腾了,因为整个模型有了推理能力,也可以接入各式各样的工具来完成一系列复杂的操作。当时有个公司比较有意思,叫做Zapier,这个公司是2011年成立的,但它们主要做一些自动化工具。但大语言模型发布后,他们就第一时间去帮大语言模型去做这系列工具,很多早期的开发者应该都用过Zapier,比如它可以让大语言模型接入谷歌邮箱,或许其他的应用,让大语言模型可以完成更复杂的工作。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


所以在2023年初,AI Agent技术三大要素的第一步已经搭建好了,逻辑推理能力提到了显著提升,也可以接各种外部API、调用外部工具来完成任务。


接下来,开发者生态进入到了技术发展的第二章:记忆能力与上下文理解。


Chapter 2.2 记忆能力


Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
刚开始GPT大概只有4096个token,其实是非常少的,大概只能输入3000多个英文单词,那时大家非常苦恼没有办法输入更多信息让模型去执行地更好。
但到5月份的时候,OpenAI最大的竞争对手Anthropic,发布Claude模型。这个模型一开始得到开发者的关注,主要原因就在于,跟ChatGPT相比,Anthropic可接受的token大概提升了100多倍,意味着它可以获得更多的信息去思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。


2023年5月11日,Anthropic推出的Claude模型可以支持10万token的上下文窗口,使得LLM能够处理更大规模的信息,并增强基于大量信息的推理和决策能力。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


不久之后的2023年6月13日,OpenAI也在这一方向做出了技术迭代,发布函数调用(Function Calling),引入JSON模式和1.6万token的上下文窗口。这让AI可以更可靠地调用外部API,比如说查天气、自动填表等等任务。


紧接着在2023年11月21日,Anthropic的Claude 2.1版本又进一步,把上下文窗口扩展到20万个token,相当于AI一次性可以记住一整本教科书的内容,思考能力大大提升。也意味着能进一步扩大大模型的记忆能力,优化推理和决策过程。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


再之后在2024年2月,谷歌发布Gemini 1.5的时候,将上下文窗口的token数扩展到了百万级别,至此,“记忆”这个AI Agent发展必备中的第二个技术壁垒也完全被打破,对于开发者们来说不再是大问题。


Chapter 2.3 工具使用


2023年底,前两个技术壁垒的突破,让大语言模型能充当虚拟世界的机器人这件事情变得更加可行,这时一些初创公司开始在硅谷生态圈活跃了起来。

AI Agent爆发前的黎明:Manus不够好,但天快亮了


Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
我知道的第一个让大语言模型去控制用户电脑的AI Agent应用公司是Simular,它应该是2023年12月底的时候发布了第一版Demo。大家看到AI agent的功能已经变得越来的强大了,从开始使用各种工具、接各种数据库、调用不同的应用,已经发展成可以操控电脑了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


2024年10月底,Claude发布了“computer use”功能,让AI Agent直接控制计算机的能力更进了一步,AI变得更像真正的、可以行动起来的智能助手。


Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
你可以看到开发者社区或初创公司其实走的比大厂要早很多。


AI圈备受关注的Andrew Ng(吴恩达)教授在2024年底关于AI Agent的演讲,彻底燃起了技术圈和非技术圈人们对于AI Agent的期待和热情,“2025年将成为AI Agent应用元年”的预测开始出现在各大媒体头版上。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


虽然各种各样的AI Agent应用demo在全球开发者社群中早就屡见不鲜了,但在Manus出现之前,大部分AI Agent创业公司主要聚焦于企业级(ToB)应用,而非直接面向消费者(ToC)。所以难点在哪里呢?


Keith Zhai
Tiny Fish联合创始人:
其实自从有互联网开始,网络上所有工具的设计方式,主要目标都是为了让人类使用,在这样的逻辑下,机器想完成准确、大面积的交互是很难的,这是在大语言模型出现前人类无法解决的问题。


在AI Agent之前行业没有形成范式共识,所以现在距离AI Agent实现通用化还差一步,那就是整个产业的支持。


Chapter 2.4 一步之遥


我们前面提到的逻辑推理、上下文记忆、工具调用这些能力,在何朝阳看来,都属于“single agent”(单独智能体)的技术发展。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


但要让AI Agent真正发展起来,做到主流化、规模化,那还需要实现multi-agent(多个智能体)之间的通信和互联,不同的Agent需要在不同设备、不同机房之间去做计算和联动,才能推动上亿级别用户机会的应用。这其中的难点在于通用的、标准化的协议适配范式。


何朝阳
TensorOpera AI
ChainOpera AI联合创始人:
用大模型来驱动逻辑推理、上下文记忆、工具调用这些能力,所产生的AI agent,被大家定义为单独智能体,这是第一个发展阶段。
第二阶段的标志,就在于agent之间能实现互相通信。
第三阶段是让agent在不同的设备、不同的机房之间计算、联动,我觉得它是未来支持亿级别用户必须要有的架构,这是一个单点是无法做到的。



AI Agent爆发前的黎明:Manus不够好,但天快亮了


目前,我们仍然处于第三阶段的竞争和尝试中,这个阶段要解决的问题是,很多网站或者工具不支持AI agent的调用。


比如说很多网站和服务都会有“反机器人/anti-bot”的设置,我们也看到Manus执行任务时也经常因为访问不了一些数据而导致任务失败,所以在这个阶段中,我们需要打造一个通用协议来解决这个问题,才能支持不同AI agent之间的联动。


包括Anthropic等在内的很多公司正在做协议适配上的尝试。2024年11月初,Anthropic推出“模型上下文协议”(Model Context Protocol,简称MCP),引进了“应用如何为LLM提供上下文”的规范。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Anthropic将MCP协议称为“AI应用的USB-C端口”,支持将大模型直接连接到数据源。此前,企业和开发者要把不同的数据接入AI系统,都得单独开发对接方案,而MCP做的,就是提供一个 “通用” 协议来解决这个问题。


然而,MCP解决了第三代技术的问题,还有最后一代问题,是目前AI Agent应用大规模爆发的壁垒,那就是:真正统一的Agent-Agent之间Protocol通信标准与分布式计算,就像如今的安卓与iOS一样,我们也需要一个全球承认且通用的AI OS。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


何朝阳
TensorOpera AI
ChainOpera AI联合创始人:
举个例子,现在有两个独立的agent,如果要让这两个agent之间互相协作,就需要造第三个agent,这个agent来负责和前两个agent之间互相通信。
但agent之间的交互没有标准,可能一个协议是A,另一个协议是B,所以第三个agent就要把各自的协议给改一下,让两者之间能互相通信。
就好比10年、20 年前,有两种电脑,一个是IBM造的,另一个是Intel造的,它们之间底层的链路没有打通,就会导致软两个软件之间没有办法沟通,那时还没有TCP/IP的时候就比较麻烦。但到移动互联网的时候,比如说基站的通讯标准TTL、 TEL等等,如果所有设备软件都符合这个标准,大家是可以互相交流的。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


图片来源:pexels


所以今天单独智能体内部调用工具的问题,MCP已经一定程度地解决了,但两个agent之间如何通信,是更高维的通信协议。我对未来AI的想象就是,有一个非常复杂的分布式网络,有大量的服务,用户的诉求分发到整个网络里面,然后得到一个反馈。
我已经看到安卓的创始人(之一)出来亲自做AI OS 这件事情,我觉得安卓一定要被重构,可能这个系统你打开之后就是一个框,你可以问的一切问题,所有的信息或动作都会呈现在这个框的里。这个是我认为协议的核心。


2024年11月底,一个由安卓系统前高管们创业的公司,/dev/agents吸引了外界和媒体的注意,他们宣布获得了5600万美元的种子轮资金,联合创始人兼首席执行官David Singleton表示:“我们需要一个类似于安卓系统的人工智能时刻”。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


他们想要打造的就和何朝阳的公司一样,希望开发一个通用操作系统,为AI Agent提供一个统一的平台。如果做到了,最后一个AI Agent的技术壁垒也就打通了,AI Agent就达到了第四阶段。


何朝阳
TensorOpera AI
ChainOpera AI联合创始人:
我们想做一个真正的distributed multi-agent framework(分布式多代理框架),并且是hybrid as cloud(混合云)的架构,这样的话就需要agent之间的通信,并且不是一个单系统,它是公司之间的协作。
目前Router这种技术(如何确定分发意图、打通不同的agent的协议),我们现在是一个一个地去找合作伙伴适配,我们正慢慢地尝试去推广这种通用的协议。
但根据10年前的教训,这件事最终应该是几个大厂、或者然后国家队联合起来一起推广,有点像通信领域的 5G、6G标准。



AI Agent爆发前的黎明:Manus不够好,但天快亮了


总结一下何朝阳从整个AI Agent生态角度来看待的四代技术:


第一阶段是planner规划(也就是逻辑推理)、记忆memory、工具tools,让单个智能体在技术上的成熟。

第二阶段是通过planner的发展,在单机上实现多个智能体之间的通信。

第三极端是AI Agent在不同设备和机房之间能联动,这将推动上亿级别的用户承载量。

第四阶段是Agent-Agent之间的通信标准与分布式计算,也就是一个全新的AI OS。这也是我们现在正在突破的阶段。

何朝阳与很多AI从业者们都说,在黑夜中探索了这么久,现在天快亮了。


何朝阳
TensorOpera AI
ChainOpera AI联合创始人:
如果是一个产品经理的视角,我觉得现在的阶段应该说是天亮了。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


如今,随着AI Agent基建的进一步完善,包括底座大模型在内的各项技术进一步提升,以及科技巨头、初创企业、开发者生态中对协议和标准的进一步探索以及统一,我们似乎能感受到,AI Agent的爆发只有一步之遥。


Manus和类似的通用AI Agent公司只是给我们打了个样,之后的路还有很漫长。但这一步的距离其实还有挺多没有解决的问题。


AI Agent爆发前的黎明:Manus不够好,但天快亮了



Nathan Wang
硅谷101特邀研究员
AI Agent开发者:
推理、记忆、工具调用这三个能力,只能让开发者做一个成熟的demo出来,但是如果想变成一个真正可用的产品,其实还需要解决两个技术瓶颈。
一个是可靠性,比如说至少有90~95%以上的情况能给用户正确且相关的信息。
二个是这个鲁棒性,怎么样让大模型或AI agent 能够具有鲁棒性,在各种边缘情况下都能够满足用户需求,是非常有挑战性的。
Keith Zhai
Tiny Fish联合创始人:
对企业来说有很多问题需要考虑,比如第一步出错的概率是1%,第二步是2%,第三步可能是1%,但最糟糕的情况是,它会有一个叠加的错误效果,等它完成到第十步的时候,错误率就非常高了,很多企业办公流程达到了十几二十步,最后可能错误率会非常高。


Keith表示他们公司Tiny Fish扒了一下网上的数据,全美国有1.5万家接受了融资的初创企业在做AI agent方向的创业,这显示出AI agent这个大赛道的生态火热。


03 硅谷AI Agent公司版图


接下来由硅谷101的特约评论员王可倚来归类下,AI Agent公司的版图和大家在尝试的方向。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


目前的AI Agent产品主要分为以下三类:


1. 以Manus为代表、直面用户的通用型agent;

2. Agent基础设施与框架层,也就是帮助搭建agent应用的地基和工具;

3. 面向特定行业的垂直化agent,比如编程、客服、销售、科研、商业分析与调研、甚至供应链管理等领域。

通用型agent前面已经讨论很多了,接下来重点讲讲后面两类。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Chapter 3.1 Agent基础设施与框架层


说到架构,不少开发者小伙伴一定会首先想到LangChain。这个诞生几个月内就获得了超5.5万GitHub星标、和3千万美元融资的开源工具,迄今是agent开发者用来让大语言模型调用外部工具与数据库、拥有长程记忆、及完成多步骤工作流的首选工具包之一。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


还有一些其他热门工具,比如Pinecone这类帮助agent高效检索外部知识的向量数据库,或让agent能更好处理私域数据的LlamaIndex等等,虽然并非仅针对agent,但也都是目前agent应用开发必不可少的“左膀右臂”。


同时各大云服务商也都争先恐后地推出了agent工具包,例如微软的Semantic Kernel、AWS的Bedrock Agents等,用来组合多种AI技能,主打对agent开发者体贴入微。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


就像前面提到的,随着AI Agent基建和框架层的进一步探索和完善,这一块也是这两年VC风投资本们非常热门的投资方向,使得开发者们能用的工具和支持生态越来越成熟。


我们在过去几个月看到不同行业和场景中,不少创业公司们的Agent应用尝试。接下来我们聊聊具体的垂直赛道的明星公司们。


Chapter 3.2 AI编程Agent


如今,AI agent应用被认为最早落地的是编程类的agent:它们不仅能自动补全代码,还能协助程序员们编写、调试,甚至自主部署软件。


GitHub Copilot在2025年2月推出的agent模式,想必码农小伙伴们都很熟悉。由初创公司推出的编程agent不仅多到让人眼花,还可以称得上AI届“造星工厂”。


号称首位“AI软件工程师”的Devin,背后是“生下来就在罗马”的新贵初创公司Cognition AI,成立不到半年,估值就跃升到20亿美金。Devin宣称能替代初级码农独立阅读技术文档、编写。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Devin的野心很宏大,每月高达500美金的订阅费也很美丽,但我身边的程序员朋友却吐槽: Devin写代码一般般,做调研倒还不错。所以现实情况是,定位于企业级用户的Devin在庞大冗杂的代码库、欠缺的技术文档和模糊不清的背景信息(context)这三座大山前,有点力不从心。


Cursor是另一个风头正劲的AI编程助手,诞生于四位MIT本科生于2022年创立的公司Anysphere。Cursor由于好用、速度快,对用户代码库理解能力出色,且成本远低于Devin,迅速成为了很多码农的首选,包括OpenAI、Shopify、Instacart的团队都有使用。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


据业内消息,不到三岁的Anysphere已实现1.5亿美金年化收入,且正在洽谈估值可能高达百亿美金的新一轮融资。


其他还有很多编程类agent,比如拥有2000万开发者用户的Replit,旗下的AI Agent可以根据自然语言指令生成完整的网页端应用。还有正在以近30亿美金估值融资的Codeium,旗下的Windsurf已拿下包括戴尔在内的超一千家企业级用户;以及字节跳动针对中文开发者推出的编程助手Trae等等。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


看来AI编程领域的agent赛马越来越精彩,不知各位码农朋友是欣喜还是担忧呢?


Chapter 3.3 客服与销售Agent


客服与销售是两个劳动密集型岗位,但如今AI agent在这两个领域中凸显了效率优势,受到大量企业采纳的领域。


客服助理中表现突出的是Decagon。这家炙手可热的AI初创公司已融资超1亿美元,客户包括大家熟悉的Duolingo、Notion和Eventbrite等。


Decagon的AI客服能自动处理高达70%的客服工单,为企业节省每年数百万美元的人力开支。企业客户之一Bilt曾说:使用Decagon就像一夜之间多招聘了65名全职客服人员。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


与此同时,销售领域则有快速崛起的AI独角兽Clay,它利用AI agent自动抓取和扩充目标客户数据,批量与潜在客户进行量身定制地互动,并帮销售人员处理大量工作中的脏活,从而成倍放大销售团队的生产力,目前已积累了十万名用户。


Chapter 3.4 其他新兴应用场景


除了上面说到的几个领域之外,AI agent还在以下许多领域扩大影响。


1. 商业调研:作为商业数据分析领域的头部AI agent,Hebbia服务于全球资管规模前50名基金中的近1/3,以及多家大型律所、咨询公司、甚至美国空军。

2. 科研:学术界明星科研助手Elicit擅长自动生成论文部分内容并处理海量数据,目前全球已有超过200万科研人员使用;它极大提升了机器学习、制药与生物科技等领域的研究效率。

3. 供应链优化:被誉为美国最神秘的大数据公司Palantir近期在其人工智能平台(AIP)推出了agent功能,用于自动化管理物流与库存,已在60余家大型企业投入使用。

4. 医疗健康:美国最大的医疗信息公司Epic利用AI agent,将大量繁琐重复的行政工作自动化,比如患者预约与分流、基本沟通、手续查验与项目批准等,有效减轻了医护人员的负担。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


Chapter 3.5 AI Agent应用小结


随着AI agent技术的发展,为什么一些应用场景会更快地落地应用呢?我们发现目前取得成功的agent大多具备以下几个特征:


1. 任务定义明确且高度重复,比如客服、销售等场景,AI能显著提效且风险相对较低。

2. 工作流模块化且相对独立,比如经过良好切割的软件开发任务,agent可以不需要大量背景知识,在封闭、可控环境中运行。

3. 注重信息检索、分析与推理,大量自然语言交互,且不需借助复杂外部工具的场景。比如各种形式的调研,利于AI扬长避短。

4. 聚焦于协助而非完全取代人类,让企业能够逐步、稳妥地将AI整合到现有工作流中。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


总得来说,业界普遍认为大模型和agentic AI的底层技术,已发展到了足以支撑大量2B领域商业化的阶段,而2C领域MVP(最小可行产品)的雏形也已经显现。


当然,想让AI agent承担更复杂的角色,在长期记忆、多模态、API整合、以及多agent协作等方面,还有很长的路要走。此外,企业也要做好内部流程、数据和文档标准化的工作,才能让AI agent更有用武之地,这或许会像10年前的企业上云,并非朝夕之功。


04 AI Agent的未来


在Manus引发的热潮和争议不久,OpenAI发布了新的Agent功能,推出专用于简化agent开发的API和工具,包括Responses API、内置工具和Agent SDK,帮助开发人员和企业构建有用且可靠的AI Agent。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


所以Manus可能只是一道前菜,而精彩的部分才刚刚开始,Agentic这个词也注定会成为2025年AI赛道的关键词。


周炜
创世伙伴资本(CCV)创始主管合伙人
前KPCB中国基金主管合伙人:
ToB端其实去年就有一些产品收入很高了,ToC端的话,我认为今年会是AI应用的元年。
我觉得一个通用的 AI agent想覆盖所有的应用场景是不可能的,所有在AGI达到之前,日常生活中应该需要多种AI agent互相配合,比如有买机票的agent,买保险的agent,买房的agent等等。
其实不用把agent想得太神秘,它就是相当于日常生活中,某个垂直领域的顾问或者是从业人员在帮你做这个事儿。所有在AI agent它应该也有很多个,针对不同的方向帮你解决不同的问题。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


当然,我相信未来所有的agent会是大一统的状态,但道路还很漫长,所以我觉得没必要观点太终极。我觉得现在创业公司得先专注在垂直领域把它做到非常精细。
Perplexity这个产品就给了大家一个非常明确的方向,你看它从一开始就是专心在“研究”这一块做得非常的专业,我觉得就走这条路,足够成就一家很好的公司。


当然,一个新技术和新范式的产生少不了失败,这个失败在于对创业路径的失败,也在于对时机判断的失败,还有对于烧钱速度的失败等等。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


在AI Agent这条道路上,我们已经看到一个初创明星公司的倒下:这就是Adept。


Adept总融资额增至4.15亿美金、公司B轮估值超过10亿美金晋升独角兽之后,却因为技术研发受阻而自己又研发基础模型所以烧钱太狠,不得不最终在2024年年中“卖身”给亚马逊。当时,这给所有想要从事AI Agent赛道的初创公司都枪响了警钟。


AI Agent爆发前的黎明:Manus不够好,但天快亮了


如果Adept能撑过黑夜、撑到如今的黎明时刻,说不定能比Manus拿出更好的产品、公司的结局会不会不一样呢?


无论如何,如今天快亮了,但新的一天才刚刚开始。长路慢慢,还早着呢。



文章来自微信公众号 “ 硅谷101 “


AI Agent爆发前的黎明:Manus不够好,但天快亮了

关键词: Manus , Agent , 智能体 , AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


4
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

5
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

6
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

7
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

8
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

9
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

10
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0