非十科技推出桌面智能体Agivar,从替代年薪300万的前沿部署工程师

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
非十科技推出桌面智能体Agivar,从替代年薪300万的前沿部署工程师
8063点击    2026-06-16 14:40

AI 正在学着操作电脑


过去 AI 回答问题,现在它直接开始帮你干活。填表格、录系统、整理文件,Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版 —— 越来越多的 Agent 开始接管真实工作流。


但当整个行业疯狂冲向桌面时,有一个问题被忽略了:AI 越来越会干活了,但普通人该怎么把自己的工作流程交给它


目前主流 Agent 的逻辑是 “你写 Prompt → AI 执行”,听起来合理,现实中却屡屡碰壁。


打开内部系统、填表单、传附件、点提交…… 这些动作早已是员工的 “肌肉记忆”,可要用文字描述清楚,大多数人直接卡住。更别说跨系统跳转、条件分支,很多人连 Prompt 从哪儿写起都不知道。


如果人说不清流程,AI 还能学会吗


有意思的是,为了解决这个难题,硅谷催出生了一个新职业 ——FDE(Forward Deployment Engineer,前沿部署工程师)


年薪300万的前沿部署工程师,要被「录屏教学」替代了


他们驻场在客户公司,工作就是把业务人员 “说不清” 的流程,翻译成 AI 能执行的任务。他们既要懂技术,又要熟悉真实的工作流。如今资深 FDE 的年薪中位数已高达 48.5 万美元。


FDE 的存在说明了一件事:让人学会教 AI,其实没有那么容易


那如果能让 AI 自己学会理解业务流程,而不是靠年薪数十万美元的工程师来翻译,会怎样?


有人给出了答案。


不会写 Prompt?那就演示给 AI 看


由清华大学计算机系博士团队创立的非十科技,最近发布了一款桌面 Agent 产品 ———Agivar


与多数产品试图优化 Prompt 不同,它选择从另一个方向切入:让 AI 主动学习用户的工作流程


你可以把它理解成一个会操作电脑的 “AI 员工”


Agivar 的核心能力叫做 “录屏教学”,使用方式非常简单:打开电脑录屏,像平时工作一样把流程操作一遍。录制结束后,剩下的事情交给 AI。


非十科技推出桌面智能体Agivar,从替代年薪300万的前沿部署工程师


听上去有点像早年的 “按键精灵”?但两者其实完全不同。


按键精灵记录的是坐标和动作 —— 鼠标移动到 (300,500) 点击,机械重复;Agivar 学习的是任务和逻辑 —— 它观察你工作的每一步,然后理解:为什么先打开这个页面?为什么填这个数字?什么情况下跳过这一步?


Agivar 学到的不是 “下一步点哪里”,而是你的工作方法。它理解的是流程背后的规则与判断逻辑,而不是单纯复现点击轨迹。即便界面改版、按钮移位,它依然能识别正确目标并执行。


你教会它一次,它就能把这套流程稳定、可追溯地执行下去。


录屏三分钟,换回每天两小时


年薪300万的前沿部署工程师,要被「录屏教学」替代了


广东省某政务部门的工作人员,每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批,每天同样的流程都要重复十几次。仅这一项工作,日常就要花掉一、两个小时。


这些系统没有 API、没有自动化接口,只能靠人工点击。于是他尝试使用 Agivar。录制了一次完整流程,不到三分钟,此后这套流程便实现了自动执行,不用再盯着屏幕逐步操作。


录屏三分钟,换回每天两小时


这样的场景远非个例。政务系统、企业 ERP、CRM、财务软件、内部 OA、采购系统…… 大量重复、无 API、只能手工操作的流程,正是成千上万普通员工的日常。真正消耗时间的从来不是复杂工作,而是那些让人麻木的重复。


别的 Agent 还在思考,Agivar 已经做完了


如果你试用过一些桌面 Agent,可能会有一个直观感受:能干,但慢。


原因并不复杂。因为大多数产品是直接调用通用多模态大模型 “硬解” 桌面任务:截图→上传云端→推理→返回→执行,再截图→再推理……


对于桌面任务来说,这意味着大量与任务无关的能力也被带进了执行过程,每次点击都伴随五秒以上延迟。整个过程像一个刚学会电脑的新人。


而 Agivar 选择了另一条路线。


团队针对桌面任务场景训练了专用的执行模型,强化了桌面操作的能力。在此基础上,设计了 “大脑 + 小脑” 双层架构:


年薪300万的前沿部署工程师,要被「录屏教学」替代了


  • 大模型(大脑):理解录屏内容、拆解任务目标、规划执行路径、处理异常。
  • 专用小模型(小脑):界面识别、鼠标点击、键盘输入、高频动作执行。


这与人类神经系统非常相似。当你开车时,不会每踩一次油门都重新思考交通规则。大脑负责路线规划,小脑负责具体动作。


支撑这套架构的,是团队基于清华大学自研深度学习框架 Jittor(计图) 开发的推理引擎,针对高吞吐、低延迟场景的桌面任务场景,团队对模型调度和执行链路进行了专门优化,确保大小模型协同不等待。


速度差距直接体现在数据上:


非十科技推出桌面智能体Agivar,从替代年薪300万的前沿部署工程师


同一台电脑执行同一个后台信息录入的任务,某主流产品耗时 2 分 12 秒,Agivar 仅 57 秒,速度提升一倍以上。


单个任务差一分钟,差距或许不明显。但当任务变成 100 份报销单、300 条客户信息,或者一天的批量审批时,分钟级差距很快被放大成小时级成本。


比速度更难的,是确定性


速度固然重要,但企业是否能让 Agent 走进生产环境,关注的不是快,而是稳。


大模型是概率系统。第一次点 A,第二次可能点 B,第三次换个按钮 —— 这在写诗时是创意,在财务录入、合同归档里却是风险。


AI 能否进入生产环境,拼的从来不是上限,而是下限


为了解决确定性,Agivar 做了三层设计:


年薪300万的前沿部署工程师,要被「录屏教学」替代了


  1. 训练收敛。用海量桌面任务数据,强化 “界面状态→用户意图→执行动作” 之间的稳定映射,减少 “发散”。
  2. 多重校验。内部多个 Agent 交叉验证 —— 规划、执行、观察、复核,不同角色各司其职,每一步都有人问:“点对了吗?界面还在预期状态吗?”
  3. 规则约束。高频流程的关键操作节点、绝对不能出错的动作,直接写成程序控制的 “铁律”。执行核心步骤时,系统会优先遵循预设路径,不随意发挥。


最终目标只有一个:同一任务重复执行,走同样路径,得到同样结果。


毕竟,对于企业来说,生产环境不需要惊喜,只需要稳定。


全栈自研,清华团队的硬核底牌


Agivar 的模型训练到执行框架,全部由非十科技自研完成。团队的核心成员来自清华大学计算机系,同时也是清华自研的深度学习框架 Jittor(计图)的主要开发者。


Jittor 以其易用性和效率优势,早已成为国内主流深度学习框架之一,这意味着 Agivar 对底层推理调度的优化,并非建立在第三方能力之上,而是具备从框架层到模型层的完整掌控能力。 


Agivar 并非团队的第一个 “爆款”,此前团队推出的 AI 编程助手 Fitten Code,累计下载量超过 150 万,在多个主流插件平台评分第一。


同时拥有大模型自研能力、深度学习框架研发能力以及百万级产品落地经验,这样的组合,在国内外同类赛道中并不多见。


让每个人都拥有自己的 “AI FDE”


过去两年,AI 行业追逐的是更大、更强的模型。但时间走到今天,一个更现实的问题浮出水面:


AI 到底能不能真正进入普通人的工作流


FDE 模式曾是答案,但高昂的成本让大多数人望而却步。


今天,Agivar 选择了一条更朴素、也更普惠的路径:把 “翻译” 和 “定义工作流” 的能力,交还给用户自己。不用痛苦地学 Prompt,不必改变习惯。一次录屏演示,就能训练属于自己的桌面 Agent。


目前,Agivar 已开启公测,支持 Windows 与 macOS。录一遍,让 AI 替你干活。


年薪300万的前沿部署工程师,要被「录屏教学」替代了


下载地址请访问:https://agivar.fittentech.com


从某种意义上说,“录屏教学” 真正改变的并不是交互方式,而是人与 AI 之间的协作关系。


它让桌面 Agent 第一次有机会摆脱复杂配置和专业门槛,真正进入普通人的工作流。如果说过去的软件是在要求人适应系统,那么下一代的 Agent 正在反过来适应人。


而当每个人都拥有一个能够理解自己工作流程的 “AI FDE” 时,这场关于效率的变革,或许才刚刚开始。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0