大模型公司不搞浏览器搞Agent,实测找到原因了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型公司不搞浏览器搞Agent,实测找到原因了
7878点击    2025-10-31 15:17

如果Agent能操作命令行,就有了与整个计算机系统交互的能力。


也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。


这种产品终于有雏形了,我们抓来阶跃星辰的桌面Agent小跃来看看实力~


它的形态比较新颖:是一个悬浮球……


区别于浏览器Agent,小跃平时就这样狗狗祟祟可可爱爱趴在桌面上。


大模型公司不搞浏览器搞Agent,实测找到原因了


当然了,完整形态如下:


大模型公司不搞浏览器搞Agent,实测找到原因了


打眼一看,这个小跃能接互联网、能搜索浏览器、能处理Excel表格、还能连接本地操作系统。


大模型公司不搞浏览器搞Agent,实测找到原因了


不过,据官方介绍,它较为突出的本领是支持通过“妙计”复用操作步骤,也支持设置“定时任务”到点自动执行,甚至能并行处理任务,不用像鸡排哥一样:做完你的再做你的。(doge)


大模型公司不搞浏览器搞Agent,实测找到原因了


好好好,开测!


一键帮搭编程环境


首先,对于学计算机的广大朋友们来说,实践的第一课是什么?


有言道:搭环境两小时,写代码十分钟。虽然说搭环境是必修课,但偶尔让AI代劳一下也不是不可以。


先来下个conda!


下载conda


小跃随即开始用内置的浏览器访问下载页面,倒是也不用担心被它看到浏览记录了。


大模型公司不搞浏览器搞Agent,实测找到原因了


找完下载链接后检查设备型号,选取合适版本后自动开始Terminal下载。


大模型公司不搞浏览器搞Agent,实测找到原因了


几分钟后完成操作,整个过程不用动手。(实际上随时可以手动接管)


大模型公司不搞浏览器搞Agent,实测找到原因了


最后来检查一下,真的有!nice~


大模型公司不搞浏览器搞Agent,实测找到原因了


做不同的项目,对环境的需求也不一样,比如:


我要做机器学习课程的CNN图像分类作业,帮我自动创建conda虚拟环境‘cnn-hw’,Python版本3.11,安装torch、torchvision、matplotlib和jupyterlab,安装完启动jupyter。


大模型公司不搞浏览器搞Agent,实测找到原因了


在实际执行过程中,如果一种方法行不通,它会自动纠错并修改。


大模型公司不搞浏览器搞Agent,实测找到原因了


最终,在本地打开了Jupyter。


大模型公司不搞浏览器搞Agent,实测找到原因了


再来检查一下我们要求的安装包是否下载了。


大模型公司不搞浏览器搞Agent,实测找到原因了


大模型公司不搞浏览器搞Agent,实测找到原因了


小跃甚至把环境变量都给你配好了,正好手头有一个贪吃蛇代码,在这个环境里跑一下。


大模型公司不搞浏览器搞Agent,实测找到原因了


觉得这个贪吃蛇太简单?让小跃帮忙升级一波。


这是我之前写的Python贪吃蛇代码,帮我优化三点:

  1. 用Pygame替换原来的tkinter界面,加个开始菜单;
  2. 增加分数排行榜功能,数据存在本地JSON文件里;
  3. 检查代码里的内存泄漏问题并修复,最后生成可执行的exe文件”。


大模型公司不搞浏览器搞Agent,实测找到原因了


由于Agent在执行任务过程中会有很多中间步骤(比如自动安装Pygame包等,能用到的都会自动安装),这里我们就不一一详细展开了,结果就是小跃直接写了个项目出来,并且都保存在了本地。


大模型公司不搞浏览器搞Agent,实测找到原因了


现在的贪吃蛇变成了这样:


大模型公司不搞浏览器搞Agent,实测找到原因了


看来,在编程方面,小跃可以直接当你的实时助手了,从环境到代码包办。


那对于在不需要编程的场景下,它又有什么亮点呢?


“妙计”复用指令,还能定时执行


首先,这个桌面伴侣就像一个小助手,可以用它来设置提醒。


大模型公司不搞浏览器搞Agent,实测找到原因了


于是就会得到贴心提示:


大模型公司不搞浏览器搞Agent,实测找到原因了


还比如「/」设置一个“妙计”指令,提示词就可以无限复用


大模型公司不搞浏览器搞Agent,实测找到原因了


执行操作只需要:


/图片按时间分类


大模型公司不搞浏览器搞Agent,实测找到原因了


更绝的是它能定时任务。


大模型公司不搞浏览器搞Agent,实测找到原因了


到点自动开刷小红书。


大模型公司不搞浏览器搞Agent,实测找到原因了


做任务还不用一个个排队,把事情都交给它,让它在后台跑,不干扰你当前的工作,任务结束时会浮出提醒。


大模型公司不搞浏览器搞Agent,实测找到原因了


说完功能,说说不足。


实测下来最大的一个感受就是


比如搭建环境,任务完成时长要以分钟为单位,可能一些性子急的朋友已经用这个时间找到教程自己做完了。


还有就是调试代码时遇到多个错误可能修改不完全,要让它多查几次。


还有就是,目前小跃只有Mac版本,据说Windows版本正在拍马赶来的路上……


让Agent更会玩电脑是未来技术趋势


当然了,“会玩电脑”、“接管电脑”也是Agent元年里最重要的产品及应用趋势。


大模型玩家早就摩拳擦掌了。


智谱一早就推出了桌面Agent,主打推理、生成PPT和海报,后来还接入了视频生成模型。


大模型公司不搞浏览器搞Agent,实测找到原因了


MiniMax的Agent也在今年的WAIC上亮相,被内部人员称为“超级员工”,能够输出分析报告、代码文件、网页小游戏、演讲ppt等多种形式。


大模型公司不搞浏览器搞Agent,实测找到原因了


前段时间Kimi家的OK Computer,可以自动在云端的临时虚拟环境进行操作。


大模型公司不搞浏览器搞Agent,实测找到原因了


而到了小跃这里,更是离开了浏览器,成为了悬浮球。


我们只需要通过语言交互,就可以在本地终端“为所欲为”。


大模型公司不搞浏览器搞Agent,实测找到原因了


过去需要用户手动衔接的操作环节,如今正被语言指令串联起来,或许未来我们和电脑的互动,会像和人对话一样轻松。


Agent正在打破人机交互的边界,也在对操作系统,提出新的要求。


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0