海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看
5776点击    2025-03-24 09:54

进入2025年,AI Agent迎来了蓬勃发展的新阶段。


OpenAI、Google DeepMind等行业巨头纷纷布局,推出Operator、Project Magi;开源社区也百花齐放,涌现出OWL、Openmanus等明星项目。


Convergence AI、H Company、Manus等聚焦Agent领域的创业公司获得融资,Browser Use等为Agent提供配套服务的企业也逐渐兴起。


技术快速迭代,海外Agent发展呈现哪些趋势?面对日趋激烈的市场竞争,Agent创业公司如何构建自己的竞争壁垒?开发通用型Agent的核心关键是什么?实现落地过程中面临的主要痛点有哪些?


锦秋基金于3月20日下午邀请了Convergence AI的工程负责人郑浅前来交流分享。


Convergence AI是一家总部位于伦敦的AI创业公司,由OpenAI的第5号员工于2024年4月创立。在2025年2月推出的产品Proxy,上线仅一个月用户数便迅速突破10万,表现出极强的市场潜力与增长态势。


郑浅是现任 Convergence AI 的 Head of Engineering,专注于 Agent AI 的研发与应用。曾在PolyAI负责语音客服 AI 服务与平台的开发。


在此次的分享里,他提到:


  • 基础设施成本和扩展性是Agent落地面临的巨大瓶颈,现有云服务难以兼容短时高并发与长时大规模需求。多平台严格的身份验证迫使用户频繁介入,制约了Agent自主性和跨场景协同能力。
  • Agent Orchestrator是创业公司的核心壁垒,决定了Agent任务规划、并行处理、多Agent协作能力。
  • 垂直型Agent聚焦特定领域,通用型Agent则整合多个功能、一站式满足用户需求。长期来看,通用型Agent会更有优势。未来可以考虑将垂直Agent整合进通用Agent平台中。
  • 目前多数Agent公司仍处于烧钱阶段,收费模式仍在探索中,具体的模式取决于用户教育和产品成熟度。
  • 通过并行Agent,能显著提高执行效率和处理复杂任务的能力,未来产品将朝这个方向发展。


以下为此次分享的详细内容整理:


01 

关于AI Agent的开发与落地


Q1:开发通用型Agent有哪些痛点?


速度与延迟


速度指 Agent 完成整体任务的快慢,延迟则是每一步之间的时间间隔。Agent 执行过程中,延迟主要来自浏览器和虚拟机的启动时间,以及 AI 模型的推理耗时。如果每一步延迟过长,整体任务完成时间也会显著增加。优化方法包括:


  • 本地部署浏览器与虚拟机,减少网络传输带来的延迟
  • 使用体量更小的模型,以提高推理速度
  • 采用并行执行的方式,提升整体处理效率


身份认证 


这是影响 Agent 产品流畅度和可用性的关键难点。Agent 常需要访问各类平台或工具,比如登录企业内部系统或使用 SaaS 软件。


然而,很多网站和应用的身份验证机制非常严格,Agent 难以独立完成登录流程,往往需要用户介入。如何兼顾安全性与 Agent 自主登录,是行业内亟待解决的重要议题。


引导用户正确使用通用型 Agent 


与传统聊天机器人不同,许多用户对通用型 Agent 的认识还停留在 ChatGPT 阶段,往往只用于打招呼、闲聊或信息查询。实际上,通用型 Agent 的价值远不仅是聊天或信息获取,而在于执行任务、提升生产力,以及跨平台整合与操作。


要解决这一问题,需要从产品设计上进行引导。例如,我们的 Proxy 系统提供预设模板,让用户从具体任务切入,而不是面对一个空白的对话框。同时,我们也通过直观的 UI 设计和任务管理面板,让用户清晰了解 Agent 的能力范围。


AI 的自主执行 


理想状态下,Agent 应该在接到任务后可自主完成,而无需用户在每一步都进行陪同和确认。目前,许多 Agent 仍依赖人机交互,需要用户不断介入调整。


如果用户需要持续手动干预,Agent 实际上并未真正节省时间。我们的目标是赋予 Agent 自主决策和自我修正能力,让用户在布置完任务后可以安心去做其他事情,无需时刻盯着 Agent 的执行过程。


基础设施 (Infrastructure) 


这是最重要的部分,牵涉到可拓展性、可扩展性和执行速度之间的权衡。在通用 Agent 架构中,需要依赖虚拟机和虚拟浏览器来执行任务,不同部署方式各有优缺点:


  • 云端虚拟机:可随时扩容,扩展性极佳;但容易受到网络延迟影响,使用体验不稳定。
  • 本地部署虚拟机:启动快,Demo 体验极佳;但对于规模较小的团队来说,难以支持大规模应用,且成本可能在快速增长时陡然上升。


这也是为什么一些团队能做出看似“速度快、效果好”的 Demo,却难以真正大规模落地。大规模应用会让本地方案变得不可持续,从而限制产品的进一步扩展,尤其当 Agent 不仅使用浏览器,还需要更多计算资源时,问题会更加突出。


目前,Microsoft Azure 正在开发一套与 AI Agent 适配的云服务。传统云端虚拟机产品难以完全满足 AI Agent 的需求,原因在于 AI Agent 需要在沙盒环境中执行代码或完成任务,且任务时长差异巨大(短则 5-10 分钟,长可达 3-4 小时)。


传统云服务在计费和系统设计上更适合长时间稳定运行的场景。如何打造既能满足短期任务又能应对长期运行需求的虚拟机服务,是云服务行业正在努力攻克的关键技术瓶颈。只有在这方面实现突破,才能真正为 AI Agent 提供高匹配度的云端解决方案。


海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看


Q2:Agent大量进入网络会带来哪些基础设施的挑战?


云服务器确实是最重要的基础设施挑战,无论是控制程度、提供的配额还是价格方面都存在问题。目前国外已经有很多科技公司开始为AI Agent搭建相关服务。


还有一个有趣的机会点,虽然不完全属于基础设施,但也是一种并发服务。当AI Agent执行任务时,比如搜索航班信息,它通常会点击搜索结果中的第一个选项。用户在Agent完成任务的过程中可能并不关心具体发生了什么,这对广告行业造成了很大的困扰。


现在已经有一些小型创业公司开始开发针对Agent的广告,研究如何吸引Agent点击自己的内容,如何通过算法让Agent每次都选择自己的服务。未来,当人们可以使用Agent购物时,推荐算法和广告的受益点会在哪里


?已经有很多人开始思考从广告角度或推荐算法方面如何为AI Agent服务。我甚至听说有人已经开发了专为AI Agent设计的网页。整个行业已经形成了一个生机勃勃的生态,大家都开始围绕AI Agent提供各种相关服务。


关于Agent如何识别广告并避免误触,这个问题可能比想象中简单。实际上,大多数浏览器服务可以直接关闭广告,使Agent根本看不到广告内容。


Q3:信息授权对任务顺畅度造成的影响是否有较好的解决方案?


要彻底解决这一问题确实不易。以预订酒店为例,用户让 Agent 代为预订时,仍需要进一步确认是否接受特定房型等细节,而这些都需要用户授权必要信息才能最终完成任务。


目前还没有十全十美的方案。虽然可以通过用户向 Agent 输入更多信息来协助完成任务,但这意味着 Agent 并非完全自主。


我们正在探索的应对之道是让用户与 Agent 之间的信息提供渠道更加多元化。现在大多数场景中,用户与 Agent 的交互依靠网页输入,但如果 Agent 遇到问题能直接给用户发短信或打电话,让用户通过接听或回复来确认或授权,就能够在一定程度上减少中断感,用户只需简短地回应即可。这种方式可以相对顺畅地获取关键信息,从而缓解因信息授权而带来的任务流断问题。


Q4:如何看待 MCP 在 Agent 中的应用?


我们目前并未采用 MCP 等方案。MCP 更像是一个 API,虽然使用起来方便,但其可扩展性和适用性都有一定局限。如果要构建真正的通用型 Agent,仅依靠 MCP 的接口会受到限制,因为支持的软件有限。


不过,我们也将 MCP 视为一种潜在的工具,未来不排除把它集成到我们的 Agent 中,用以扩充系统的功能。


02 

AI Agent创业公司的

竞争力与核心壁垒


Q5:海外市场上的通用Agent产品有哪些?


目前各大公司都已纷纷入局,想在各赛道上抢占先机。市场上的产品可分为三类:


已经落地的通用性Agent


  • OpenAI的Operator:第一个真正落地的通用协议型Agent,目前仅限美国地区使用,发布引起了众多AI爱好者关注。据我们所知,Operator组的资源有限,发布至今仅推出3个小功能。OpenAI作为模型公司,面临Deepseek带来的压力,更多精力投入到模型本身研发,而非产品迭代。
  • Convergence AI Proxy:在Operator亮相两天后向公众开放。我们专注于研发Agent,研发速度更快。在之前一个半月里,我们不断进行产品优化和扩展,具体功能将在后面详细介绍。
  • Anthropic的computer use:一个企业级API服务,严格来说不算产品。但它的推出为这方向的AI产品奠定了技术基础,影响深远。


备受关注的开发中产品


  • 谷歌的Project Magi:最初Demo在去年12月,核心方向偏向人机交互。他们想将AI Agent整合到Chrome浏览器中,但近期没有新Demo,未透露更多细节,产品进展仍是未知数。
  • H company:由DeepMind著名科学家领导,体现了海外市场对AI Agent赛道的高度关注。5个联合创始人成立时就获得2亿美元投资,成为市场焦点。成立近一年,因内部矛盾问题至今未推出任何Demo和产品。我们仍非常关注,因它可能是我们在美国市场外最大的竞争对手。
  • Camel AI:通过开源项目owl获得广泛关注,让大家看到了通用AI agent的可能性。


为Agent AI提供服务的产品


  • BrowserBase和Browser Use:为浏览器Agent提供虚拟浏览器服务的公司。
  • Microsoft Azure:与Convergence合作较密切,正在紧锣密鼓研究为AI Agent提供虚拟机服务。


从目前来看,巨头公司已纷纷布局,如OpenAI、谷歌等,试图在各领域建立领先优势。创业公司也获得大规模投资,如H company。Convergence AI初期也获得1200万美元的相当大的Pre-seed投资。行业生态快速发展,很多服务型公司也逐步兴起。


Q6:AI Agent创业公司的核心壁垒体现在哪些方面?


Agent公司的创业核心竞争力在于其Agent orchestrator。目前虽有开源模型,但没有人开源真正的Agent orchestrator,各家公司都有独特做法。


如何构建有效的Agent orchestrator的能力在未来一两年内都将是Agent创业公司重要的核心竞争力。比如我们即将上线的并行Agent系统,目前其他公司都不知道如何实现,这对我们是很好的核心竞争力。


有人会问,小型创业公司如何与OpenAI或Anthropic这样的大公司竞争?我认为各行业有各自专攻领域。OpenAI、Anthropic及Deepmind在模型研发方面确实强大,但他们在产品开发方面表现不佳。在产品领域,我们有能力与他们一较高下。


过去两年OpenAI推出了GPTs或Prompt Store等多款产品,但大多是失败的。我们开发的AI Agent不仅是技术,还是产品。在产品设计方面,我认为我们不会输给OpenAI。


Q7:Agent orchestrator为何重要?


通用型Agent意味着可以同时自主完成不同任务,具备规划和重新规划能力。


核心主要有三点:


  1. 具备任务规划与执行能力。通过Agent orchestrator功能实现,可理解为通用性Agent的'大脑',负责管理整个任务流程。
  2. 需要虚拟机或虚拟浏览器,使其能在不同平台执行操作,如打开网页、填写表单等。可想象为人类的肢体。
  3. 需调用各种工具完成任务,如浏览网站、运行代码、分析数据、生成报告等。


因此Agent orchestrator的重要性可以体现在三点:


第一,有计划才有合作。单个Agent能力有限,一群Agent协作则能完成更复杂任务。如公司撰写报告需资料搜集、数据整理、分析、趋势预测等。


优秀的Agent orchestrator需有计划地分配任务,让Agent各司其职,最大化效率。它像团队领导者,分配任务、制定计划,确保每个Agent完成职责。


第二,重新规划与纠正。计划不一定完美,但及时纠正能将偏离计划拉回正轨。Agent orchestrator是灵活指挥官,能制定计划,也能监测任务进度,发现问题时及时调整策略。


最后,并行处理的Agent,即Parallel Agent orchestrator。它是实现并行Agent的前提。以行业分析报告为例,面对十份报告,目前Agent会线性逐篇查看。


若Agent orchestrator能同时生成多个Agent,每个负责一篇报告并行处理,最后整合信息,效率将是线性处理的10倍。因此,并行Agent必然是未来趋势。


有人问通用型Agent是否只是缝合机器?这是当前AI产品的误区。许多Agent产品能做很多事:处理代码、生成报告、浏览网页等,将功能整合使演示看起来炫酷,但这是对Agent本质的误解。


Agent核心是'大脑'即Agent orchestrator。若单纯缝合工具而不加强Agent orchestrator开发,就像没有大脑只有工具的人,无法很好执行任何任务。


海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看


Q8:Agent构建的核心会转移到模型吗?


有观点认为,未来Agent的核心将逐渐转移到模型训练阶段,通过根本提升模型的推理能力,而无需预设提示词或工作路径。


我认同这一趋势。一位与Deepseek关系密切的朋友预测,未来AI将能自行设计、开发并部署产品,每天自动生成新产品,甚至可能取代编程团队。这一想法确有道理,但实现可能还需10-20年时间。


不过,从近期大语言模型的发展来看,最近发布的模型鲜有真正的创新突破。像Deep Research这样的成果,更多是工程上的成功而非模型本身的进步,这或许表明当前的发展遇到了瓶颈。

因此,我认为目前更应专注于眼前的实践,推进未来十年内能够实现的进步。至于更长远的技术路线,可以等时机成熟再去研究。


03 

商业化与未来发展


Q9:通用型Agent的应用场景可能有哪些?


通用Agent刚问世时,业界对其实际应用场景非常模糊。以OpenAI的Operator为例,首次演示时,第一个示例是查询苹果公司股票价值。这显然是失败的营销,因为用户可以打开任何股票APP立即得知苹果股价,无需使用Operator。


随后Operator展示了自动购买商品功能。这同样是牵强的应用场景,对许多用户来说,购物不仅是买东西,还包括享受比较和选择的乐趣。如果Agent直接代替用户购买,反而会降低用户体验,而非提升效率。


我们的产品开发初期也遇到了类似问题。通过不断用户调研、观察实际使用情况,以及大量实验和迭代,我们最终找到了真正适合智能体的应用方向。以下是从真实用户数据中提取的应用场景:


第一个应用场景是我们自己的Investor每天使用的任务:总结每日AI新闻,并将其转化到Google Docs上。这个看似简单的过程每天能为Investor节省约10分钟时间。我们认为这是非常好的应用场景,真正帮助到了用户。


第二个是一位房产中介用户,他每天要求寻找特定房产信息,给出具体要求,然后将报告发送到Slack的某个频道。Slack类似于国内的钉钉产品。


第三个是QA工程师的应用。在大厂工作过的朋友都知道,QA工程师每天工作是在网站上进行一系列操作,观察网站的UI兼容性、加载速度和功能等。我们有QA工程师设置了这样一个自动化:每天在网站上不断进行测试,然后将结果总结成报告,发送到他的邮箱。


最后一个是帮助制定婚礼计划。这不是非常通用的应用场景,但我们整个团队都很惊讶,我们的Agent竟然真的能帮助人制定婚礼计划,所以想在这里分享给大家。


海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看


Q10:未来哪种类型的 Agent 会占主导?


当前 AI Agent 产品可以大致分为垂直型和通用型两大类:


垂直型 Agent 这类 Agent 专注于特定领域,例如海外的 Perplexity 专门用于搜索,11x 则聚焦于销售场景。


它们在特定领域内针对性强,能够帮助专业用户更高效地完成相关任务。正因为市场上出现了诸多各自解决特定问题的垂直型 Agent,人们才会感觉 AI 产品数量过多。


通用型 Agent 通用型 Agent 旨在整合多种功能,一站式满足不同场景需求。随着未来个人或企业所需的 Agent 功能与场景不断增多,不太可能一次性购买大量垂直 Agent 来分别处理不同任务。通用型 Agent 的出现,正是为了解决这个痛点,帮助用户在一个平台中完成多项任务。


未来,随着通用型 Agent 的发展,垂直型 Agent 可能会逐渐失去原有的竞争优势。


在我们的产品中,已经出现了各种功能不同的 Agent,比如专门负责经纪事务的 Broker Agent、专门生成报告的 Report Agent 等。


我们不仅将它们视作工具,更将它们当作一个个具备特定职责的 Agent,让它们以更清晰的角色分工来提升整体效率。


Q11:通用Agent和垂直Agent的边界在哪里?不同类型公司会如何在这个领域拓展?


我们一直强调的最重要的是Agent orchestrator,也就是'大脑'。当你有了一个好的大脑,要接入其他垂直领域的Agent只需要告诉大脑这个垂直Agent的功能,它就能去使用。


我们的目标并不是取代所有的垂直Agent。正如术业有专攻,如果有人开发了销售Agent,那他们肯定在销售领域进行了大量研究才能做出这样一个专业的销售Agent。


我们不想取代它,也不想自己组建销售团队去研究如何做销售Agent。我们最好的方法是让用户能够将已有的垂直Agent接入到我们的平台中。


我们希望提供的是大脑和四肢,为用户提供一些基础工具,而对于更复杂的工具,就像公司引进一位非常优秀的人才一样,作为管理者可以直接与这个人合作,利用他的优势完成任务。我们不想划定边界,而是希望各种Agent能够融合在一起,相互补充。


Q12:Agent系统的成功率如何?未来发展方向是什么?


尽管有时会出现 Agent 误判任务已完成的情况,但在在成功率方面表现还不错,尤其在引入 DeepWork 模型后,Agent 整体执行效率得到进一步提升。


对于商业应用来说,企业往往更加关注安全性而非成功率。我们与 Microsoft Azure 团队合作,未来将通过微软渠道展开商业化推广。


在下一阶段的发展中,我们计划提升 LLM 的视觉能力,以解决模型在视觉识别上的误差问题。Proxy 平台也将逐步具备更多功能调用能力,并继续开发更多垂直领域的 Agent,例如 Lovable Agent 和 Cursor Agent 等。


我们始终认为垂直领域的 Agent 拥有独特价值,而我们的 Agent orchestrator 将扮演核心协调者角色,帮助用户将已有 Agent 整合到一起,实现跨厂商协同并避免重复开发。


通过这种方式,通用型 Agent 与垂直型 Agent 能够优势互补,为用户提供更全面的服务体验。


Q13:关于收费模式和用户教育,你们有什么考虑?


目前关于具体定价还没有太多细节考虑。现阶段所有AI公司都在烧钱,就像大家看到OpenAI烧了多少钱一样。我们首先需要确定的是产品能够达到什么样的创新程度,等产品定型后再去考虑合理的收费模式。


从OpenAI的例子可以看出,他们推出200美元的operator高级服务几乎没有人使用,后来将Deep Research功能加入其中仍然没有人用。


他们限制plus用户每月只能使用十次Deep Research功能,结果被用户强烈批评。所以收费模式是需要大家一起慢慢探索的问题,当产品真正定型后,我们会进一步研究适合的付费方式。


关于用户教育,我们在进行用户调研时发现,很多人首次使用Agent时会先说'你好',询问'今天天气怎么样'这类问题,这样的使用方式没有触及产品的核心功能。我们发现用户对产品的理解普遍存在欠缺,这可能与我们的UI设计不够直观有关。


我们正努力让用户一进入产品就能了解Agent可以帮他们做什么。目前我们提供模板,未来计划引入用户画像功能,让用户在首次使用时告诉我们他们的职业、兴趣和爱好,类似于社交媒体平台的用户引导。


这样我们就能推荐一系列适合他们的模板,帮助用户立即了解产品的实用功能,这是一种有效的用户教育方法。


04 

关于Convergence的实现路径


Q14:Proxy 有哪些特点?


Proxy 不仅是一项技术尝试,更是经过市场验证、快速增长的产品。短短一个月内,我们便积累了 10 万用户、每天处理 1 万个独立任务,并有 1,500 个自动任务在后台运行。


我们最近发布的 Deepwork 模型,突破了以往 AI Agent 难以完成的任务,为用户提供了更加广泛的应用场景。事实证明,通用型 AI 不再只是概念,而是能够真正落地、为用户创造实际价值的功能。


与其他产品相比,Proxy 有以下优势:


真正可用的 Agent 


许多 AI 产品都无法实现真正的可用性,用户初次体验往往决定其是否会持续使用。为让 Agent 更易上手,我们高度重视稳定性和推理能力,并在用户引导上投入大量精力。Template Hub 就是一个典型的功能设计,它提供预设任务模板,引导用户正确、高效地使用产品。


专注于 Agent orchestrator 开发 


自去年 11 月起,我们就专注打造高效的 Agent orchestrator,而不是仅开发工具本身。我们认为,这才是 Agent 的核心能力。我们的 Agent 具备强大的推理与规划能力,虽然目前仅能使用网页浏览工具,但应用范围已极为广泛。Agent orchestrator 不只提供规划能力,还能更好地扩展 Agent 的功能。正因为有了它,我们的工程师在开发代码执行 Agent 和报告生成 Agent 时,可以大幅减少集成成本与时间。


真正的应用场景 


我们不断邀请内部用户挖掘最具价值的应用场景。在产品上线之初,就为用户准备了 20 个预设模板,帮助他们快速找到合适的使用方式。迄今为止,用户已创建了 100 多个不同模板,进一步丰富了应用场景。


产品思维


我们深知 Convergence 不仅仅是一个 Agent,更是一个完整的产品。我们不仅关注 Agent 的能力,同时也致力于帮助用户提升工作效率,将其无缝融入日常流程。为此,我们在产品设计上投入了大量精力,只为确保用户能在实际工作中真正受益。


海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看


以下是我们投入大量精力研发并已获得市场认可的功能:


Automation(自动化重复核心任务) 


很多工作需要周期性重复执行,如定期撰写报告、发送邮件或进行数据分析等。我们的 Agent 能完成这些任务,并按指定频率(如每日、每小时或每周)自动循环执行。此功能深受用户喜爱,目前在 Proxy 中每天至少有 1,500 个 Automation 任务在运行。


用户认证管理 


在 AI Agent 的真实应用场景中,身份认证和权限管理至关重要。我们构建了完善的用户认证系统,确保 Agent 能在安全可控的环境中执行任务,无需过多人为干预。


并行 Agent 


这是即将推出的新功能。并行 Agent 可一次性生成多个 Agent 并行执行任务,极大地提升运行效率。我们认为,目前市场上并没有真正实现 Pipeline Agent 的 AI 产品,许多还停留在 Demo 阶段。


对于并行 Agent,系统首先会进行任务规划,判断是否需要生成多个不同的 Agent 协同完成工作。例如,最初由单个 Agent 搜索并汇总新闻链接,其他 Agent 处于待机状态;当所有链接获取完毕后,系统会再生成多个 Agent(如 Agent2 到 Agent6),每个 Agent 分别负责处理一篇新闻,进行信息提取。


多 Agent 并行工作不仅提升了效率,也让任务分工更加细化。我们目前已经取得一定进展,并计划在两周内上线这一功能。


Q15:Proxy并行 Agent 如何实现?


并行 Agent 通过 Agent graph 来完成调度。每个 Agent 都清楚自己何时应该被唤醒,以及在完成任务后应该唤醒哪个 Agent。


举个例子,我曾展示过一个包含 8 个 Agent 的案例:其中 1 个 Agent 负责收集网站信息,5 个 Agent 分别获取链接并阅读新闻,另 1 个 Agent 负责打开邮箱并发送邮件,最后还有 1 个 planning Agent 负责整体规划和协调。


对于简单的任务,引入并行机制并非必要;但如果需要一次性阅读 100 篇文章,并行 Agent 的价值就能充分体现,效率可提升百倍。我们之所以引入并行 Agent,正是出于用户反馈:他们每天需要阅读大量文章,耗时太长。


Q16: Proxy Agent 系统使用什么模型,如何控制成本?


Token 消耗


实际消耗的 token 数量比想象中要少得多。主要的开销集中在任务规划和重新规划阶段。对于简单的文本输入和少量图片,大约 2,000 个 token 就足够了。即使处理图片,每张也只会增加一两千个 token,整体成本可控。


模型选择


我们采用多种 LLM,包括主流模型和自研或开源的小型模型。我们的目标是尽量使用小型模型。以我们开源的 3B 参数模型为例,在 Web Voyager 测试中,已经能达到 75% 的性能,非常惊人。我们还在训练更小的 0.5B 参数模型,并通过精细化任务分工,让小型模型只处理相对简单的子任务,依然可以获得良好效果。


规划与推理模型


在任务理解和规划上,Agent可以使用 DeepSeek-R1、o3-mini 等模型。通过订阅制和分级使用量的商业模式,即便大多数任务都跑在自研模型上,也能很好地控制实际成本。


文章来自于“锦秋集”,作者“锦秋集”。


海外Agent落地有哪些新趋势?听听OpenAI第5号员工创办的公司这么看

关键词: Convergence , Agent , 智能体 , Proxy
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


3
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0