有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

10802点击 2024-05-15 17:20

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

今年的Google Shoreline圆形剧场，弥漫着一种前所未有的角斗场般的气息。

前一天OpenAI用GPT-4o和全新的ChatGPT把全世界掀翻，而Google要在今年甚至最近几年最重要的一场Google I/O上做何应对，似乎成了唯一的主题。

事实上，据OpenAI的人士透露，GPT-4o是一个至少两年前就已经开始开发的模型，而硅谷AI圈子之小，互通有无之频繁，其实不仅OpenAI有机会故意选在Google的大会前狙击Google，后者同样也会对此有所预期。

所以，当Pichai走上舞台中央时，一场反狙击开始了。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

在这场持续两小时的发布中，Google有攻有守。

它对自己的看家业务搜索做了最彻底的一次AI化改造，还再次全面更新了Gemini模型家族。

守住OpenAI们猛攻的方向，同时发起进攻。

一方面很有火药味的发布了效果超过Sora的模型Veo，并且是可以立刻申请体验的产品；另外还展示了与GPT-4o 相似的语音视觉交互功能Gemini Live，同时，还更进一步推出了比OpenAI等对手更激进的AI智能体Project Astra。

以下为现场实录。

Gemini，Gemini，还是Gemini

当Google CEO Sundar Pichai走上台，在他的前几分钟讲话里，Gemini的频率甚至超过了Google这个词。

Gemini是去年Google I/O上正式推出的最核心的模型，而一年以后，Google已经用它完成了对自己内部的“大一统”。模型是Gemini，智能助手是Gemini，Android的核心是Gemini。甚至，Pichai都不叫自己Googler了，他们叫：

Geminier。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

而当天大会上Gemini模型首先进行了更新。此前几个月，Gemini 1.5的长文本版本以预览版本推出，今天它正式对所有人发布。此前的Gemini 1.5版本上下文长度为100万token。而Pichai似乎轻描淡写的公布：

新版本长度再次刷新，达到200万token。

现场的开发者爆发出当天的第一阵欢呼。

“我们正式进入了Gemini时代。”Pichai直入主题说。目前有超过1500万开发者在使用Gemini做开发。而Gemini最近三个月时间达到了100万订阅用户。

关于Gemini的具体信息，自然是由Deepmind的CEO Demis Hassabis来讲。这也是这位传奇人物第一次Google I/O演讲。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

在他的演讲中，第一个发布是Gemini 1.5 flash。这是一个针对端侧的模型，同样有100万和200万token的版本。这似乎指向了Google接下来对端侧的野心。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

“我们总有很多模型同时在训练，我们会用我们最强的模型来帮助小模型。”

而对于此前推出的单独版本的Gemini App，Google也做了更新，推出了更高级别的订阅服务Gemini Advanced。也就是对标ChatGPT Plus的最高级别服务。

在这个服务里，一个新的功能看起来正是对昨天ChatGPT的更新的回应——Gemini Live。你可以在Gemini里实时无延迟地打电话来与AI互动，也就是GPT-4o昨天做的事情。遗憾的是这部分只是一带而过，看起来Google更多是想说，哪怕晚一天，也要告诉世界，不是只有你能做。

不过现场似乎对此略显失望，人们显然希望看到更多针尖对麦芒的发布。

有视觉记忆的AI Agent

于是，大的来了。

一个充满野心的AI Agent。

面对OpenAI的进攻，不能只是防守。Google也需要一些更加激进的东西来反击。这个东西就是Project Astra。这是一个还在研发中的AI Agent，而Pichai形容Google的梦想一直就是做出一个强大的AI Agent。

Google Deepmind CEO Hassabis亲自上台，讲解和展示了Astra的一个原型的运作视频。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

在展示中，一开始一切都和我们见过的AI Agent差不多，可以通过用户打开的摄像头识别物体，与用户实时语音交互。而惊人的一刻在最后到来，当用户带着Astra走了一大圈后，突然提出一个此前没有涉及到的问题：

“你记得我把眼镜放哪了么？”

这是此前没有询问的问题，但摄像头扫过的时候Astra曾“看”到过他的眼镜，而AI Agent居然以视觉的形式记录了下来。

“你的眼镜在桌上苹果旁边。”Astra回答道。

这让现场一阵惊呼，也是此次发布会上最长的一次掌声。

此外，Google还明显针对Sora做了一次进攻。发布了一款全新的视觉模型，Voe。这是Google过往许多视觉模型的集大成者，也可以看作Sora逼迫下的一次内部资源整合。

在Voe的展示中，用户可以通过点击扩展，而继续增加视频生成的时长，这让它可以超过了Sora一开始的1分钟，并且可以保持一致性。

Google还着重展示了他们开发这些产品过程里与艺术家的合作。似乎也在隔空喊话那些对Sora不满的艺术家，来这里来这里，我更好。

终于对搜索下手：Google搜索最大的一次改造

除了对OpenAI的进攻的反应，人们也关心一件事：Google的搜索改造得怎么样了。

Google什么时候对搜索下手，是所有人期待的那个重要时刻。OpenAI此前的烟雾弹，Perplexity不停地碰瓷，都让Google一直显得太过安静。而这一次终于有了最大的一次更新和变化。

当数亿美国用户今天打开Google时，他们将看到近几年最大变化的Google。

AI overview，也就是AI生成的搜索答案总结，会出现在所有人的搜索框下。

而且，这个总结并不是一个固定的模版，而是根据你的问题进行调整。

比如，Google可以根据你的问题帮你做规划。这时候在搜索框下，会显示正在进行的步骤，然后在Overview里展示给你不同卡片，把需要的信息整理出来提供给你。

Google表示这是必须有强大的实时搜索才能做的，言外之意，那些没有搜索能力基础的公司，就别来碰瓷了。

而搜索的改造也只是个开始，它看起来很像是要变成Google激发用户AI需求的一个超级入口。

比如Google展示了一个场景，当用户哪怕不知道自己该具体问什么的时候，Google也可以给你推荐，与你做头脑风暴。而此时这个搜索的界面也进一步完全变成了另一个样子。像是不同卡片的信息流，每一个都可以进一步操作。

“Google会替你Google。”这是Pichai对此的定义。

更进一步，Google还展示了一个用实时视频对话来搜索的功能。而这也是全场进行了半小时后的第一次Live demo的环节。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

当你买了一台唱片播放器，但你对此毫无了解，它出了播放问题，但你不知道问题到底在哪里的时候，你可以直接打开摄像头拍摄并询问。

而Google直接给出了AI整理的答案和解决建议。

“这就是Gemeni时代的搜索。”Pichai说。现场掌声再次响起。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

对全家桶的AI能力进一步改造升级

Google I/O上的保留节目是对全家桶的新功能展示。而Gemini时代来了，这些全家桶也自然要更新。

Pichai在当天展示的第一个应用案例，是“Ask Photo”。9年前，Google Photo发布。每天有60亿的照片视频上传。Gemini让AI编辑更简单。

你现在可以ask photo，与照片进行对话。比如，你可以问Photo app，“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。

或者你可以询问Photo，“我女儿是什么时候学会游泳的”，然后还可以进一步询问，“她的进步是怎样的”。Photo都可以把对应的照片和视频给你展示出来。这对于每天都抱着手机看自己宝贝孩子成长历程的人们来说，实在是太有用了。

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

这个功能的展示也让全场一阵欢呼。

此外Workspace也有了很多新功能，Google还展示了一个基于多模态能力的教学工具，你可以用语音提出教学要求，比如“给我一个用篮球解释力学原理的案例”，Motion就会自动用很自然的语音讲出来。

另一个让现场观众眼前一亮的功能，是Android对Gemnini的使用。现场展示的一个live demo中，一个诈骗电话打来，像我们经常遇到的电话那样，在一通义正严辞的提醒后，对方要求你把钱转到一个安全的账户。

而就在这句话说出来时，Gemini被激发了，直接弹出一个警告框，阻止了电话的继续进行。

全场响起可能是当天第二长的一次欢呼。

在发布会的最后，Pichai做最后总结时开玩笑说，肯定有人在数，我今天说了多少次AI。

“不用数了，Gemini数完了。”

然后大屏幕显示120。

“我说了这么多次AI。”

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

然后Gemini又加了1，变成了121。

现场都笑了。

很明显，Google依然正在一个整合资源的过程里。无论是对全家桶的能力提升，还是对搜索的改造，背后都是一个逻辑，要把Google这么多年积累下来的能力和资源用起来，由Gemini来做唯一的大脑，改造一切，守住并继续抢夺新的用户。

Google不会轻易下牌桌，AI大战会继续进行下去。

本文来自微信公众号“硅星人Pro”，作者王兆洋有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini｜现场围观Google I/O的绝地反击

关键词: 谷歌 , Gemini , Agent , AI , AI视频

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales