Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!
9977点击    2026-04-11 10:38

AI 代理,坐上了你的工位


4 月 8 日,AI 编程公司 Factory 官方账号发了一条推文,语气平静但信息量炸裂:


"Today we're releasing the Factory desktop app. A native interface for autonomous AI agents that work across every part of your software business."


「今天我们发布 Factory 桌面端——一个面向自治 AI 代理的原生界面,覆盖软件业务的各个环节。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ Factory 官方发布桌面端,21万+浏览,872 赞,579 收藏


这条推文在不到两天内被21 万人围观,评论区涌入上百条回复。


表面看,这只是一个桌面客户端。但打开细节一看,Factory 做的事情远比"给 AI 套个 GUI"要激进得多——他们要让 AI 代理像人类同事一样,坐在你的工位上,操作你的电脑,同时跑多个项目


「像你一样操作电脑」——这句话有多疯狂?


Factory 桌面端最惊人的能力叫Computer Use


不是让 AI 在沙盒里生成一段代码然后等你复制粘贴。它是真的去操控你桌面上正在运行的应用程序。


"Droids in the desktop app control other applications. They navigate VS Code, interact with browser tabs, read documents, open excel, and work with whatever is running on your desktop."


「桌面端的 Droids 可以控制其他应用——操控 VS Code、与浏览器标签页交互、读文档、打开 Excel,处理你桌面上运行的一切。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ 官方推文展示 Computer Use 能力:代理同时操控 Excel 和代码界面


官方新闻页给了一个更具体的场景描述:


代理可以在浏览器里打开你的 staging 环境,点击走完一个用户流程,然后报告哪里出了 bug。接着它切到 VS Code,执行一个扩展命令,读取输出,继续行动。它还能从 Excel 里拉数据、写销售方案、更新设计文件。


然后官方甩出一句话,直接把调子拉满:


"This is not text generation in a sandbox. The Droid operates your computer the way you would."


「这不是沙盒里的文本生成。Droid 像你一样操作你的电脑。」


你以为这就完了?还没有。


同时跑 5 个 AI 员工,侧栏一键切换


Factory 桌面端第二个核心能力是Multi-Agent Sessions(多代理会话并行)


你可以同时启动多个 Droid,一个在做功能开发,一个在跑数据库迁移,一个在做代码审查——每个代理的上下文、进度、历史记录都在侧栏里分别保持。


"The desktop app is built for running multiple Droids at once. Each session lives in the sidebar with its own context, progress, and history."


「桌面端专为同时运行多个 Droid 而设计,每个会话在侧栏中拥有独立上下文、进度与历史。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ 侧栏同时显示多个项目:gRPC 迁移、数据管道、事件驱动架构、零停机部署、Redis 限流——全在并行


这个设计解决了一个 CLI 时代的痛点:在终端里跑多个 AI 代理,你根本管不过来。窗口一多就乱,上下文一切换就丢。桌面端把「任务编排」做成了常驻侧栏,每个代理的状态一目了然。


官方还给了一个很生动的说法:


"Start a Droid on a feature build, kick off another on a migration, and check in on either without losing your place."


「让一个 Droid 做功能开发,再启动一个做迁移,随时切回任何一个查看进展——不丢上下文。」


给代理一个「家」:不用每天重新布置工位


第三个杀手锏:Droid Computers


每个 Droid 都有一台持久化机器。不是每次启动都从零开始——安装的包、克隆的仓库、配置的凭据、跑着的服务,全都还在。


"Your Droid doesn't start from zero every morning. It picks up where it left off: installed packages, cloned repos, credentials, running services."


「你的 Droid 不需要每天从零开始。它从上次离开的地方继续——安装好的包、克隆好的仓库、凭据、运行中的服务。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ Droid Computers 管理界面:注册云端或本地机器,一处管理所有代理的「工位」


Factory 把这种持久化分成了三层:


  • Cloud Computers:Factory 托管的云端机器,支持创建、休眠、唤醒、快照、恢复,SSH 可直连
  • BYO Machine:用 `droid computer register` 命令,把自己的工作站、服务器甚至 GPU 机器注册进来
  • 本地模型 + BYOK:连接 Ollama、vLLM 或任何兼容端点,让 Droid 在本地模型上运行——数据不出内网


Factory 称,他们已经在「全球最大的金融、医疗和政府机构」完成了完全离网(air-gapped)部署。


可视化、插件生态、移动端——一次全放出来


除了三大核心能力,Factory 这次发布还塞了不少东西:


VS Code 深度集成——桌面端可以直接连接本地或远程的 VS Code server,浏览文件、用终端、编辑代码、跑扩展,全部绑定到 Droid 的会话里。


AI 原生可视化——Droid 自己决定怎么呈现结果。分析性能回归?直接在对话里渲染火焰图。审查数据库迁移?给你画依赖关系图。Mermaid 图、表格、仪表盘,都能直接在对话里生成。


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ AI-Native Visualization:代理自主选择输出形式,动态生成可视化


MCP / Skills / Hooks / Plugins——完整插件生态在桌面端可用。Skills 可以跨所有 Factory 界面复用,并且能 check into repo,整个团队共享代理能力,像管理代码一样管理 AI 技能


移动端——手机上也能查看 Droid 进度、review diff、开新会话。


数据说话:采用率翻倍,会话量暴涨 4.6 倍


Factory 在推文中公布了一组数据:


"Enterprise teams adopt Droid 2x faster when both CLI and desktop are available. Users who work across both interfaces run 4.6x more sessions than CLI-only users. They're not splitting time. They're doing more total work."


「当 CLI 和桌面端同时可用时,企业团队采用 Droid 的速度快 2 倍。同时使用两种界面的用户,跑的会话数是纯 CLI 用户的 4.6 倍。他们没有在分散时间,而是在做更多的总工作量。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ 官方数据:桌面端让企业采用速度翻倍,跨界面用户会话量是纯 CLI 的 4.6 倍


需要注意的是,这是Factory 官方自报数据,没有披露样本量、统计窗口和具体定义,但趋势本身值得关注:桌面端降低了 AI 代理的使用门槛,让不住在终端里的人也能用起来


官方新闻页进一步指出:


桌面端让 Factory 触达了那些不整天泡在终端里的人——设计师、产品经理、数据科学家、客户经理。当你的 AE 用 Droid 准备交易摘要、PM 用 Droid 写产品规格,价值主张就从「工程效率」变成了「组织杠杆」。


安全问题怎么办?代理能操控电脑,不怕失控吗?


让 AI 代理操作桌面,第一反应自然是:这安全吗?


Factory 在官方安全文档中给出了答案:


  • 本地执行:Shell 命令和文件编辑都在本地跑,只有必要的上下文和 diff 发送到 Factory 云端
  • 审批机制:所有高风险操作都需要用户明确批准(allow / ask / reject 三级权限可配置)
  • 数据加密:传输层 TLS 1.3,存储层 AES-256 + AWS KMS
  • 不训练你的代码:Factory 明确声明不会用你的代码做训练


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ Factory 官网新闻页:安全模型沿用 CLI,本地执行 + 审批 + 加密


桌面端沿用与 CLI 相同的安全模型。如果你已经在用 CLI 或 IDE 扩展,session、设置和 skills 都会自动迁移过来。


外部声音:桌面原生是对的方向


有生产环境代理运维经验的开发者 @automate_archit 评论道:


"Native desktop interfaces for agents is the right call. Browser-based agent UIs add 200-400ms of latency per interaction that compounds fast when you're running multi-step workflows. The teams I work with running production agents care about two things: speed and reliability. Desktop-native solves one of those instantly."


「代理做桌面原生是对的。浏览器型代理 UI 每次交互增加 200-400ms 延迟,跑多步工作流时会快速累积。我合作的生产代理团队只关心两件事:速度和可靠性。桌面原生立刻解决其中一项。」


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ @automate_archit:浏览器每次交互多 200-400ms,桌面原生直接砍掉这个延迟


真正的赛点:谁来定义「AI 同事的工作台」?


Factory 桌面端的发布,传递出一个清晰的信号:AI 代理的战场正在从「对话框」转向「工作台」


当 Cursor、Windsurf 们还在 IDE 里卷代码补全的时候,Factory 直接把赛道拉到了桌面操作系统层面——代理可以操控 VS Code,也可以操控浏览器、Excel、终端,甚至你桌面上跑着的任何东西。


更关键的是,这些代理有自己的持久化机器、有团队共享的技能库、有跨端同步的会话状态。它们越来越像一个真正的同事,有自己的工位、自己的工具链、自己的工作记忆。


macOS 和 Windows 双平台今天就能下载,所有 Factory 计划均可使用。


Factory放大招:AI代理直接「接管你的电脑」,操控VS Code、浏览器、Excel,21万人围观!


▲ 今天就能下载,macOS + Windows,所有 Factory 计划用户均可使用


一个 AI 代理像你一样坐在电脑前干活的时代,已经不再是 demo 里的概念了。


文章来自于微信公众号 "虾智",作者 "虾智"

关键词: AI新闻 , Factory , Factory AI , AI编程
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AIExcel公式

【开源免费】smart-excel-ai是一个输入你想要的Excel公式的描述,即可帮你生成对应公式的AI项目

项目地址:https://github.com/weijunext/smart-excel-ai

在线使用:https://www.smartexcel.cc/(付费)

4
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

5
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md