亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

9063点击 2025-04-25 10:39

非常荣幸受邀前往 Las Vegas 参加 Google Cloud Next 大会！

之前对 Google 的了解不够深入，参与这次大会之后才发现 Google 在 AI 上的投入和布局相当全面。

总的来说，Google 想做的事情就不只是“卷模型”，而是把整个生态系统都搭起来——从开发、部署，到协作和落地，一个都不落下。

对国内出海企业来说，Google 强大的 Infra 基础设施以及生态资源，非常契合出海企业在本地化运营、全球市场扩张中的关键需求，提供了从研发到运营的全链路支持。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

整个大会信息密度极高，我们挑了一些比较重磅或觉得比较有趣的重点讲讲，全部的 229 个发布内容可以查看文末文档。

接下来我们将按照下述顺序来给大家分享：

01 多款模型全面升级

02 开发工具一应俱全

03 落地场景 & 有趣案例

04 Google 的全生态位布局

多款模型全面升级

此次大会，Google 在核心模型能力上亮出了其标志性的 Gemini 模型家族以及多模态生成能力更新。不再只是追求“大”，而是向着更专业、更高效、更可控的方向发展。

1. Gemini 家族的演进

Gemini 2.5 Pro：Google 迄今最强大的 AI 推理模型，具备多模态处理能力和“思考”机制，这款模型已在 Vertex AI 和 Gemini 应用中可用。

Gemini 2.5 Flash：Google 推出的首款支持混合推理的 AI 模型，允许用户通过调节「思考预算」在成本与性能之间实现灵活平衡。在关闭思考模式时，输出成本低至每百万 token 0.6 美元，较开启思考模式（每百万 token 3.5 美元）降低约 83%。

2. 多模态生成能力的拓展

Google 在多模态生成领域展示了其强大的能力，构建了一个涵盖多种媒体类型的创作生态：

Veo 2：能够根据文本描述生成 1080P 的视频片段，具有新的编辑和摄像头控制功能。

Imagen 3：能够将草图转化为高质量的产品图像，其细节表现力接近专业水平；具有改进的图像生成和修复功能，可以重建图像中缺失或损坏的部分。

Chirp 3：只需要十秒就可以克隆语音。

Lyria：业界首个企业级文本转音乐模型，可将简单的 Prompt 转换为 30 秒的音乐片段。

开发工具一应俱全

Google 构建了一个覆盖不同开发需求和场景的 AI 工具矩阵：

Agentspace：面向企业的 AI 智能体与统一搜索平台，旨在打破数据孤岛，简化智能体的创建、部署与协作，实现复杂业务流程的自动化与智能化。

AI Studio：面向快速原型设计和创意的平台，支持低代码或无代码的开发方式，旨在降低 AI 应用的初期构建门槛。

Vertex AI：作为 Google Cloud 的核心 AI 平台，Vertex AI 提供了全面的 ML 生命周期管理功能，适合构建和管理大规模、生产级的 AI 应用。大会上宣布了 Vertex AI 的大量更新，包括对更多开源模型（如 Gemma, Llama 3）、模型微调工具和 MLOps 功能的支持。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

Firebase Studio：面向全栈开发者的云的集成开发环境 (IDE)，Firebase Studio 集成了 AI 能力，方便在应用开发中快速引入 AI 功能。

Agent2Agent 协议：基于 HTTP、SSE 等通用标准构建的协议，支持企业级验证和授权，旨在帮助企业突破供应商与框架限制，让智能体能够跨平台安全地通信、交换信息并协调行动。

A2A 协议通过 Agent Card 实现能力发现，统一任务定义与生命周期管理，支持智能体间结构化通信与结果交付，并允许就信息呈现方式进行协商，提升多智能体协作效率与用户体验。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

Agent Development Kit (ADK)：开源框架，支持 MCP，简化多 Agent 系统构建。

落地场景 & 有趣案例

在场景落地方面，Google 展示出强大的整合能力。

首先是 Google Workspace 的全面智能化：Gemini 已深度融入 Gmail、Docs、Sheets 等产品，助力写作、总结、分析与演示等。

其次是 Cloud 原生产品的 AI 升级：BigQuery、Dataflow、Security Command Center 等系统已接入 Vertex AI 能力，数据分析更智能，安全响应更主动。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

下面分享一些在会场里看到的有意思的案例！Next 大会上，Google 展示的 Agent 都展现出语音优先、实时交互和多模态识别（图片、视频）等核心特性。

1. AI 导购

买家可以通过通话视频，AI 导购帮忙选购你想要的产品；如果有 AI 解决不了的比如打折，AI 会说去问他的主管，即商家后台会弹出相关信息提醒。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

2. Gemini 实时解说

这次大会展台上不少产品都是叠加了 AI 实时识别+语音解说，从打篮球、保龄球小游戏到现场最热门的——实时解说乐高比赛。现场 4 位小伙伴开始比拼，AI 解说会实时分析各个玩家的搭建进度。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

3. 贴心的产品经理

这个电话亭的设计很有意思！Gemini 化身产品经理，给 Gemini 打电话，通过对话描述需求，进行头脑风暴，Gemini 最终会返回给你原型图和详细的 PRD 文档。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

Google 的全生态位布局

Google 的更新远不止这些，特工们整理了一份 Google 的 AI 生态图，如下。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

我们还做了一份知识库（还在建设中，后续直播回放和资料也会放在其中）！里面更新了此次 Google Cloud Next 的 229 个全部更新。

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

https://agentuniverse.feishu.cn/wiki/CdYcwlHpqigIVUklKzncWQ4QnBl?from=from_copylink

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

从底层算力到智能体生态，Google Cloud 此次大会释放出超过 200 项重磅更新，既有已在实践中跑通的成熟方案，也有面向未来的前瞻性技术布局。

这正是 Google Cloud 对 “AI for what’s Next?” 的回应——构建更稳健的基础设施，提供更强大的模型能力，打造更开放的平台生态，推动 AI 成为真正普惠的生产力工具。

或许这也正是 Google 眼中未来的模样——所有智能体的每一次“呼吸”，都将在其构建的生态脉络中完成。

文章来自微信公众号 “ 特工宇宙 ”，作者特工少女

亲临 Google Cloud 大会现场，229 个新发布带你看懂 Google AI 布局！

关键词: Google Cloud , AI , 谷歌AI , Google AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales