谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮
谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮好好好,起大早赶晚集的谷歌,这次又拿出了新东西—— Computer use,就是那个电脑操作能力,这回直接被内置进Gemini 3.5 Flash:
搜索
好好好,起大早赶晚集的谷歌,这次又拿出了新东西—— Computer use,就是那个电脑操作能力,这回直接被内置进Gemini 3.5 Flash:
很多科学突破,最开始都来自一个朴素的问题:人类终于算得动了。天文学需要计算行星轨道,生物医药需要计算分子相互作用,现代 AI 需要在海量参数、数据和反馈中寻找更优解……
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。
当地时间 6 月 2 日,Perplexity 在 Computex 2026 的 Intel 主题演讲上,做了一个很多人没太在意、但可能改变整个 AI 应用行业走向的演示。不是新模型,不是更快的搜索,而是一套「任务路由」系统。
OpenAI 公开介绍 Computer-Using Agent 时,讲的也是这个方向:模型针对图形界面交互做过训练,能把屏幕理解、任务目标和鼠标键盘动作接起来。鼠标会动只是表面。遇到按钮位置变化、弹窗多一层、页面慢一点时,它还能重新看屏幕,继续判断下一步。
想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。
「Agent Harness」是「套壳」的另一种说法。
OpenClaw 的专属 Computer Use 工具 Peekaboo v3 正式回归,并在发布后高频更新。它补上了 OpenClaw 最缺的一环,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面。
就在刚刚,Agents SDK迎来一次彻底的架构重写。原生harness、原生沙盒、Codex级的文件系统工具,外加七家头部沙盒厂商一键接入。3月初,GPT-5.4带着原生computer use(计算机使用)高调登场时,开发者就已经吐槽过一件事。
2026 年第一季度,它和另外四种完全不同的 Agent 产品形态在同一个窗口期同时冒了出来。OpenClaw 走个人助理、Cowork 走办公协作、Codex App 走长程工程任务、Perplexity Computer 走统一工作站、腾讯云 ADP 走企业平台。