首个Gemini桌面端曝光，系统级Agent空降PC！

6377点击 2026-05-20 10:13

首个Gemini桌面端曝光，全新Gemini 3.2/3.5闪现，不到1分钟盲写2000行代码，操作系统级Agent真的来了。

谷歌这次，是真要掀桌子了！

5月20日凌晨1点，也就是今晚，Google I/O 2026即将在加州山景城正式拉开帷幕。

但大戏，其实已提前开演了。谷歌上上下下集体「憋不住」了——

从CEO劈柴、Hassabis，到Gemini产品负责人Logan，一个接一个往社交媒体上扔重磅炸弹。

首个Gemini桌面端曝光，系统级Agent空降PC！

让全网炸锅的是，配的预热视频，全是AI生成的。

一边是10s经典梗图输出，另一边是8s真人预告Gemini，人们纷纷猜测皆由Gemini omini完成。

首个Gemini桌面端曝光，系统级Agent空降PC！

同在今天，谷歌Gemini桌面版曝光了，Mac版最先上线。

Live、Spark、Omni、「魔法指针」功能齐发，一场颠覆人机交互革命来了。

首个Gemini桌面端曝光，系统级Agent空降PC！

从下一代旗舰模型Gemini 3.5/3.2，到原生多模态Gemini Omni，再到全新Gemini桌面端应用……

谷歌I/O大会的密集预热，已将全网的期待推向高潮！

重磅新品呼之欲出，所有人都在屏息以待，准备迎接属于谷歌的「新王」时刻。

首个Gemini桌面端，真要来了

真正让全网沸腾的，是I/O前夜曝出的一整套Gemini桌面端核心升级。

知名爆料人TestingCatalog称，「谷歌Gemini桌面应用即将迎来四大核心功能」。

首个Gemini桌面端曝光，系统级Agent空降PC！

目前泄露的桌面版仅支持Mac，Windows用户还得再等等

Gemini Spark：系统级Agent操控PC

演示中可以看出，Gemini Spark是一个独立的Agent工作区，和普通Chat模式分开。

它的杀手锏在于——

可以连接本地文件夹，读取代码文件、运行脚本、整理文件，甚至直接与Google Drive同步工作流。

首个Gemini桌面端曝光，系统级Agent空降PC！

换句话说，这不再是一个「你问我答」的聊天机器人，而是一个真正能在你的电脑上干活的AI员工。

它能看你的文件，操作你的文件，还能把活儿同步到云端。

首个Gemini桌面端曝光，系统级Agent空降PC！

这是什么概念？

这正是Codex桌面版，以及Claude Code正在追逐的领地：本地文件系统级别的Agent操控权。

谷歌一步到位，直接塞进了消费级桌面产品里。有网友将其称之为，Codex的替代方案。

首个Gemini桌面端曝光，系统级Agent空降PC！

Stream to Cursor：「魔法指针」降临桌面

在上一周的Android Show上，谷歌「Magic Pointer」惊艳亮相。

「鼠标指针」一夜之间，成为了AI交互的核心——

不用打断工作流，光标悬停到哪里，AI立即理解上下文，并弹出操作建议。

首个Gemini桌面端曝光，系统级Agent空降PC！

现在，这个能力被搬到了桌面端，叫做「Stream to Cursor」。

它让Gemini以浮动窗口的形式，实时感知鼠标所在窗口的上下文——你在看什么，它就知道什么。

首个Gemini桌面端曝光，系统级Agent空降PC！

更重要的是，这个浮动窗口还支持即时分享屏幕、窗口或摄像头内容。

它还支持在Gemini 3 Flash和Gemini 3.1 Pro之间快速切换。

不得不说，这才是大模型真正「接管操作系统」的样子。

首个Gemini桌面端曝光，系统级Agent空降PC！

Gemini Omni：内部代号Veo4 Omni

爆料显示，Gemini Omni在谷歌内部被指代为「Veo4 Omni」，这直接暗示了Veo 4的深度集成。

更早之前的泄露已经显示，Gemini的视频生成页面出现了「Powered by Omni」的标签。

它和现有的Veo 3.1代号「Toucan」并列出现。

首个Gemini桌面端曝光，系统级Agent空降PC！

这意味着，谷歌正在把文字、图片、视频三大生成能力合并到一个统一的Gemini模型中。

这将是业界第一个真正意义上的「全能生成模型」。

Gemini Live：语音实时交互

Gemini Live将作为常驻语音悬浮窗出现在桌面端，不过目前仍处于开发阶段，尚未正式可用。

除了四大核心功能，还有一个细节值得注意：「Skills技能」全面上线Gemini桌面端。

开发者可以将自定义脚本或功能文件夹，直接挂载到Agent工作流中。

一时间，谷歌的桌面端AI布局从「聊天机器人」直接跳到了「全能操作系统级Agent」。

全新Gemini 3.2闪现

编程快到「离谱」

这几天，全网已经放出不少关于Gemini 3.2，甚至称3.5的编码实测。

一些开发者在Gemini网页端，选择「Fast模式+Canvas」，就路由到了Gemini 3.2 Flash版本。

今天，下一代旗舰Gemini，突然在Antigravity现身了。

首个Gemini桌面端曝光，系统级Agent空降PC！

有大佬Chetaslua实测后惊叹，Gemini 3.2 Flash编程能力简直快到「离谱」——

一句提示，2000行代码，生成一个mini版「我的世界」，不到一分钟。

首个Gemini桌面端曝光，系统级Agent空降PC！

另一个demo中，1700行代码，48秒，Gemini完美通过了体素立方体（voxel cube）测试。

首个Gemini桌面端曝光，系统级Agent空降PC！

在前端搭建上，一个Flash版本的Gemini做到这种程度，简直绝绝子。

首个Gemini桌面端曝光，系统级Agent空降PC！

办公「全家桶」，也换脸了

顺带一提，就在I/O前夕，谷歌还悄悄更新了整套Workspace应用图标。

就在I/O前夜，Gmail、Google Drive、Docs、Sheets、等十几款Workspace应用开始全面推送新图标。

首个Gemini桌面端曝光，系统级Agent空降PC！

最显眼的变化是：

谷歌彻底抛弃了「每个图标必须包含四种公司色」的铁律，转而采用「渐变色+独立配色」的设计语言。

这套新设计语言和Google Logo、Gemini图标、Android 17的视觉体系完全打通。

但不得不说，谷歌正在从图标到AI底层，对整个生态进行一次统一的视觉和智能重构。

谷歌训出最大AI

迎来「Mythos时刻」

在所有围绕I/O的讨论中，科技大佬Andrew Curran的一段预测引发全网关注。

「我认为他们训练了有史以来最大的模型」。

可能是任何人训练过的最大模型。在规模化过程中，出现了意料之外的东西。

他用了一个非常有意味的类比：

他们经历了自己的Mythos时刻，但方式和Anthropic不同。

Gemini一直是一个和Claude非常不同的模型。

首个Gemini桌面端曝光，系统级Agent空降PC！

今天这一波密集泄露所指向的图景，远比「又一次产品更新」宏大得多。

谷歌首个Gemini桌面端，正变成一个驻留在操作系统层面的「全能智能体」——

能听（Live语音）、能看（Stream to Cursor屏幕感知）、能做（Spark本地文件操控）、能创（Omni视频生成）、能学（Skills技能系统）。

这是一个原型级的「通用智能Agent」。

从单一的问答工具，到感知环境、操控工具、生成内容、自主执行——这条进化链，恰恰是从窄AI走向AGI、乃至ASI的必经之路。

今晚的I/O大会，谷歌已经按下了开始键。

上一届AI提了92次，今年呢？

去年谷歌I/O 2025主题演讲中，谷歌现场计数显示「AI」被提及了92次。

这一次，AI大概会出现多少次？

首个Gemini桌面端曝光，系统级Agent空降PC！

参考资料：

https://www.theverge.com/tech/932417/google-gmail-docs-cal-sheets-workspace-icon-redesign

https://x.com/testingcatalog/status/2056532499036045317?s=20

文章来自于"新智元"，作者 "桃子 David"。

关键词: AI新闻 , Gemini桌面端 , Gemini , 谷歌AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md