亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!
7614点击    2025-04-25 10:39

非常荣幸受邀前往 Las Vegas 参加 Google Cloud Next 大会!


之前对 Google 的了解不够深入,参与这次大会之后才发现 Google 在 AI 上的投入和布局相当全面。


总的来说,Google 想做的事情就不只是“卷模型”,而是把整个生态系统都搭起来——从开发、部署,到协作和落地,一个都不落下。


对国内出海企业来说,Google 强大的 Infra 基础设施以及生态资源,非常契合出海企业在本地化运营、全球市场扩张中的关键需求,提供了从研发到运营的全链路支持。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


整个大会信息密度极高,我们挑了一些比较重磅或觉得比较有趣的重点讲讲,全部的 229 个发布内容可以查看文末文档。


接下来我们将按照下述顺序来给大家分享:


目录


01 多款模型全面升级

02 开发工具一应俱全

03 落地场景 & 有趣案例

04 Google 的全生态位布局


多款模型全面升级


此次大会,Google 在核心模型能力上亮出了其标志性的 Gemini 模型家族以及多模态生成能力更新。不再只是追求“大”,而是向着更专业、更高效、更可控的方向发展。


1. Gemini 家族的演进


Gemini 2.5 Pro:Google 迄今最强大的 AI 推理模型,具备多模态处理能力和“思考”机制,这款模型已在 Vertex AI 和 Gemini 应用中可用。


Gemini 2.5 Flash:Google 推出的首款支持混合推理的 AI 模型,允许用户通过调节「思考预算」在成本与性能之间实现灵活平衡。在关闭思考模式时,输出成本低至每百万 token 0.6 美元,较开启思考模式(每百万 token 3.5 美元)降低约 83%。


2. 多模态生成能力的拓展


Google 在多模态生成领域展示了其强大的能力,构建了一个涵盖多种媒体类型的创作生态:


Veo 2:能够根据文本描述生成 1080P 的视频片段,具有新的编辑和摄像头控制功能。


Imagen 3:能够将草图转化为高质量的产品图像,其细节表现力接近专业水平;具有改进的图像生成和修复功能,可以重建图像中缺失或损坏的部分。


Chirp 3:只需要十秒就可以克隆语音。


Lyria:业界首个企业级文本转音乐模型,可将简单的 Prompt 转换为 30 秒的音乐片段。


开发工具一应俱全


Google 构建了一个覆盖不同开发需求和场景的 AI 工具矩阵:


Agentspace:面向企业的 AI 智能体与统一搜索平台,旨在打破数据孤岛,简化智能体的创建、部署与协作,实现复杂业务流程的自动化与智能化。


AI Studio:面向快速原型设计和创意的平台,支持低代码或无代码的开发方式,旨在降低 AI 应用的初期构建门槛。


Vertex AI:作为 Google Cloud 的核心 AI 平台,Vertex AI 提供了全面的 ML 生命周期管理功能,适合构建和管理大规模、生产级的 AI 应用。大会上宣布了 Vertex AI 的大量更新,包括对更多开源模型(如 Gemma, Llama 3)、模型微调工具和 MLOps 功能的支持。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


Firebase Studio:面向全栈开发者的云的集成开发环境 (IDE),Firebase Studio 集成了 AI 能力,方便在应用开发中快速引入 AI 功能。


Agent2Agent 协议:基于 HTTP、SSE 等通用标准构建的协议,支持企业级验证和授权,旨在帮助企业突破供应商与框架限制,让智能体能够跨平台安全地通信、交换信息并协调行动。


A2A 协议通过 Agent Card 实现能力发现,统一任务定义与生命周期管理,支持智能体间结构化通信与结果交付,并允许就信息呈现方式进行协商,提升多智能体协作效率与用户体验。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


Agent Development Kit (ADK):开源框架,支持 MCP,简化多 Agent 系统构建。


落地场景 & 有趣案例


在场景落地方面,Google 展示出强大的整合能力。


首先是 Google Workspace 的全面智能化:Gemini 已深度融入 Gmail、Docs、Sheets 等产品,助力写作、总结、分析与演示等。


其次是 Cloud 原生产品的 AI 升级:BigQuery、Dataflow、Security Command Center 等系统已接入 Vertex AI 能力,数据分析更智能,安全响应更主动。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


下面分享一些在会场里看到的有意思的案例!Next 大会上,Google 展示的 Agent 都展现出语音优先、实时交互和多模态识别(图片、视频)等核心特性。


1. AI 导购


买家可以通过通话视频,AI 导购帮忙选购你想要的产品;如果有 AI 解决不了的比如打折,AI 会说去问他的主管,即商家后台会弹出相关信息提醒。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


2. Gemini 实时解说


这次大会展台上不少产品都是叠加了 AI 实时识别+语音解说,从打篮球、保龄球小游戏到现场最热门的——实时解说乐高比赛。现场 4 位小伙伴开始比拼,AI 解说会实时分析各个玩家的搭建进度。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!



3. 贴心的产品经理


这个电话亭的设计很有意思!Gemini 化身产品经理,给 Gemini 打电话,通过对话描述需求,进行头脑风暴,Gemini 最终会返回给你原型图和详细的 PRD 文档。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


Google 的全生态位布局


Google 的更新远不止这些,特工们整理了一份 Google 的 AI 生态图,如下。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


我们还做了一份知识库(还在建设中,后续直播回放和资料也会放在其中)!里面更新了此次 Google Cloud Next 的 229 个全部更新。


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


https://agentuniverse.feishu.cn/wiki/CdYcwlHpqigIVUklKzncWQ4QnBl?from=from_copylink


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!


从底层算力到智能体生态,Google Cloud 此次大会释放出超过 200 项重磅更新,既有已在实践中跑通的成熟方案,也有面向未来的前瞻性技术布局。


这正是 Google Cloud 对 “AI for what’s Next?” 的回应——构建更稳健的基础设施,提供更强大的模型能力,打造更开放的平台生态,推动 AI 成为真正普惠的生产力工具。


或许这也正是 Google 眼中未来的模样——所有智能体的每一次“呼吸”,都将在其构建的生态脉络中完成。




文章来自微信公众号 “ 特工宇宙 ”,作者 特工少女


亲临 Google Cloud 大会现场,229 个新发布带你看懂 Google AI 布局!



AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales