
微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星
微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。
微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。
2025年初,随着Manus的火爆,其背后的“黑科技”Browser Use也同样引起了人们的关注。Browser Use专为解决上述痛点而设计,强调将AI agents与网页连接,实现对浏览器的自动化操作。它支持AI agents自动轮换,单次登录即可实现持久会话,据TechCrunch报道,Browser Use是Manus用来执行各种任务的组件之一,例如点击网站菜单和填写表格。
E2B 的愿景很大,CEO 的目标是成为 AI Agent 时代的 AWS,成为一个自动化的 infra 平台,未来可以提供 GPU 支持,满足更复杂的数据分析、小模型训练、游戏生成等需求,并可以托管 agent 构建的应用,覆盖 agent 从开发到部署的完整生命周期。
近年来,图形用户界面(GUI)自动化技术正在逐步改变人机交互和办公自动化的生态。然而,以 Robotic Process Automation(RPA)为代表的传统自动化工具通常依赖固定脚本进行操作,存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。
继 BrowserUse 和 ComputerUse 席卷 AI 自动化领域后,手机操作类项目终于迎来重磅选手:DroidRun!开源 AI 手机操作神器,解锁 Android 自动化新时代!
移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。
随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能于现实世界中可实际部署的高效工具,成为了业界关注的焦点。
Manus的火爆带热了多个技术概念,Computer Use Agent就是其中之一。但要探讨这种“电脑使用”智能体,还得从Claude 3.5 Sonnet说起。
人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。