也许,谷歌欠缺的,只是一个更大的野心。
抢先苹果一个月,Google 将 AI+手机的可能性,全都展示在了自己的 Pixel 新机之中。
当地时间 8 月 13 日,Google 发布了 Pixel 9、Pixel 9 Pro 以及二代折叠屏 Pixel 9 Fold、智能手表、耳机等硬件新品。相比于硬件,人们更关注,在 AI+手机如此火热的当下,作为 Android 系统的管理者,Google 将会如何将端侧 AI 用于 Android 手机之中。
差不多在10个月前,谷歌推出了第一代 AI 手机,如今不到一年,这家巨头再次更新 Gemini、Android 和 Pixel 的产品组合,这一次,主打的是「竞争对手有的,我也有」模式。
自 OpenAI 推出 ChatGPT 语音模式,以及苹果下一代 iPhone 的 AI 功能曝光以来,同行们能做到的,谷歌都不愿落下,包括 AI 语音对话、搜索屏幕截图中的信息等。与此同时,谷歌也在让 AI 进一步集成进自身的应用生态。
谁才是 AI 手机领头羊,Google 一定要和苹果掰掰手腕。
Gemini 是谷歌各种 AI 产品的基石,也是谷歌 Pixel 9 系列手机上的默认助手,Gemini 在集成进手机时有哪些升级,是发布会上的一大焦点。
谷歌 Pixel 手机上的 Gemini 按下电源按钮即可唤出。据谷歌高管称,从今天开始,用户可以在使用的应用程序上方调出 Gemini 的覆盖层,询问有关屏幕上内容的问题。例如,用户可以询问正在观看的 YouTube 视频的相关问题,用户还可以直接从 Gemini 的覆盖层生成图像,并将它们拖放到 Gmail 和 Google Messages 等应用程序中。
谷歌还计划在「未来几周」让 Gemini 连接更多应用程序,包括日历、 Keep 和 YouTube Music 等。具体的功能用途如,让 Gemini「制作一份让我想起 90 年代末的歌曲播放列表。」「拍下演唱会传单的照片,并让 Gemini 查看那天是否有空——甚至设置提醒来购买门票。」「让 Gemini 在你的 Gmail 中找到一份食谱,并要求它将配料添加到 Keep 中的购物清单中。」
Gemini 使用截图提取信息与更多应用程序互动|图片来源:谷歌
除了这些集成体验外,谷歌还正式上线了 Gemini Live,这一功能可以说是谷歌对 OpenAI 推出的 GPT-4o 高级语音模式的回应。该功能此前在谷歌 2024 年的 I/O 开发者大会上曝光过,今天开始正式推出。
用户可以用手机与谷歌的生成式AI聊天机器人 Gemini 进行语音对话,可以中途打断,提出跟进的问题,对话可以随时暂停和恢复。一些具体用途例子包括,让 Gemini Live 陪你准备工作面试、练习演讲,随便聊聊关心的话题等。
Gemini Live 明显要对标 GPT-4o 的语音交互|图片来源:谷歌
那么,Gemini Live 相较于 ChatGPT 的语音模式有优势吗?
据称,支持 Live 的生成式 AI 模型架构——Gemini 1.5 Pro 和Gemini 1.5 Flash,拥有比平均水平更长的「上下文窗口」,这意味着它们可以在生成响应之前处理和推理大量数据,理论上可以进行长达数小时的对话。
Gemini Live 还可免提使用,用户可以在应用后台或手机锁定时继续进行语音对话,有10 种新声音可以选择。
但值得注意的是,Gemini Live 目前还未上线「多模态输入」功能,据称将于「今年晚些时候」推出。
几个月前,谷歌曾经发布了预录视频,展示了 Gemini Live 如何通过手机摄像头捕捉的照片和视频识别用户周围环境,并做出响应,比如指出损坏自行车的某个部件,或解释计算机屏幕上一段代码的功能,这些都未得到现场的真实演示。
而且,Gemini Live 在 Android 手机上的 Gemini Advanced 订阅用户中推出,并不是免费的。目前它仅提供英文版本,谷歌称「未来几周」将扩展到更多语言,还要通过应用程序扩展到 iOS。
谷歌高管直播演示 Gemini Live|图片来源:谷歌
谷歌 Gemini 体验与谷歌助手方面的高管称「谷歌正处于探索AI驱动助手各种有用方式的早期阶段——就像 Pixel 手机一样,Gemini 将会越来越好。」
另外,在隐私问题方面,谷歌 Android 生态系统方面的高管称,Gemini 支持来自几十个设备制造商的数百款手机型号,在处理用户数据时,数据不会离开手机。
「Gemini 可以基于你私人教练的邮件帮助创建每日锻炼计划,或利用你 Google Drive 中的简历撰写工作简介。只有 Gemini 能够通过这种安全的、一体化的方法做到这一切,而不需要将数据交给你可能不认识或信任的第三方AI提供商。」谷歌 Android 生态系统总裁 Sameer Samat 称。
「由于 Android 是首个拥有大型设备内多模态 AI 模型的移动操作系统——名为 Gemini Nano——在处理一些最敏感的用例时,你的数据不会离开你的手机。」
谷歌推广 AI 手机的最大优势无疑是自家的多种应用工具,以及 Android 生态,谷歌现在有数十亿 Android 用户,能发挥的空间,显然比一个聊天机器人应用程序更多。
去年,作为首款以 AI 为核心的智能手机,谷歌的 Pixel 8 系列带来了各种 AI 功能。例如,用户可以移除、移动或编辑照片中的单个元素,可以在照片之间移动表情以获得最佳的合成照片,可以基于截图或屏幕上的某个「圈选部分」进行搜索等。
所有这些功能都首次出现在 Pixel 8 系列上,随后在整个 Android 生态系统中得到一定推广。
像谷歌的「圈选搜索」功能,实际上首次出现在三星的 Galaxy AI手机上,作为谷歌的 Android 生态合作伙伴,三星的手机还添加了许多类似的AI功能。前述 AI 助手 Gemini 也出现在三星的 Galaxy Z Fold6、摩托罗拉 Razr+等手机里。
与此同时,其他制造商也宣布要推出自己的手机 AI,过去几个月最受关注的莫过于苹果,相同的一个方向和理念是融合自家的应用程序生态。
在这差不多一年时间里,「AI 手机」可以说已经成了市场看待手机的核心视角,不仅仅是谷歌手机。如何再用AI让人眼前一亮,对谷歌来说是个挑战。目前来看,与推出第一代AI手机Pixel 8时类似,谷歌输出最多的还是各种 AI 功能小工具。
在今年的 Made By Google 活动上,谷歌重点推出的AI新功能包括:
「Add Me」,即使是拍照的人也能把自己拍进合照里;
「Pixel Studio 」,一款AI图像生成器,与苹果即将推出的Image Playground应用非常相似;
「Pixel Screenshots」,它可以扫描用户图库中的截图,将它们转变为一个易于搜索的数据库;
「Call Notes」,可以保存通话记录中的信息摘要,激活该功能后通话中的每个人都会收到通知。
其中,如果想实现「Add Me」的功能,摄影师首先拍摄一张没有自己的照片,然后由另一个人当摄影师,再拍一张照片。Pixel 会将两张照片合并,确保每个人都在一张照片里,无需找陌生人帮忙拍照。
集体合照功能|图片来源:谷歌
谷歌给 Pixel 9 系列定位的一大卖点还有AI相机,自封为「世界第一个 AI 驱动的相机」。谷歌高管还称「Pixel 是第一个在照片和视频中使用夜视功能的手机,现在它也是第一个在低光环境下拍摄壮丽全景风景和城市景观的手机。」在发布会上,谷歌高管还将 Pixel 9 Pro XL 拍摄的照片与苹果的 iPhone 15 Pro Max 进行对比。
谷歌手机 vs 苹果手机夜晚拍照效果|来源:谷歌
超大屏的折叠款 Pixel 9 Pro Fold 还有一个「Made You Look」功能,能用来吸引用户的注意力,让他们对着镜头笑。用该功能时,展开手机,一侧外屏上会播放引人注目的视觉动画,比如一个亮黄色的小鸡,或者其他搞怪的动画。
吸引用户注意的屏幕功能|图片来源:谷歌
拍完照之后,还有修图工具,谷歌图片的 Magic Editor 今年又推出了一些新功能。比如 「Auto Frame」功能,用于校正倾斜照片的角度,同时使用生成式AI填补主体周围的空白,形成更广阔的视野。还有「Reimagine」功能,在文本框中描述想要的效果,就可以用生成式 AI 来 P 图,比如将地上的草变成野花,在天空的某个部分加个热气球等。
此外,谷歌紧随苹果的脚步,推出一种在紧急情况下使用「卫星 SOS」功能,这项功能让用户可以在没有蜂窝服务的情况下,联系紧急救援人员并共享位置信息。据谷歌高管称,Pixel 9 系列将是「首批能够使用卫星 SOS 的 Android 手机。」
卫星 SOS 功能|图片来源:谷歌
从功能上看,Pixel 9+ Gemini 的组合,并没有在 AI 方面领先现在国内Android 厂商太多。但要注意的是,与苹果不同,Google 既有自己的系统和终端,又有大模型和云计算,是目前所有公司中在「软硬芯云」真正完成闭环的公司。
一旦终端 AI 出现突破口,万事俱备的 Google 「再次伟大」的可能性,要比竞争对手大非常多。
也许,Google 欠缺的,只是一个更大的野心。
文章来源于“极客公园”
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales