ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
谷歌版Her抢跑!一键召唤Gemini,全球52亿终端被颠覆
7167点击    2024-08-14 17:58

OpenAI,刚被截胡了?


紧追着OpenAI的「Her」,谷歌也正式官宣:发布AI语音功能!


就在刚刚「谷歌制造」的主题演讲中,谷歌宣布推出语音模式Gemini Live。不久后,Gemini Live就会在Gemini移动应用程序中上线。


谷歌和OpenAI的军备竞赛,再一次打响。



看看OpenAI那边,三个月前石破天惊的「Her」如今依旧没个声响,这是妥妥要被谷歌截胡的节奏啊。


在场的谷歌领导Rick Osterloh也意味深长地表示:「我们听到太多关于AI的承诺,和即将推出的口号了。今天,我们要展示的是真实的进展!」


此外,在这次演讲中,谷歌还详细展示了Gemini会如何更深入地集成到安卓、应用程序和新的Pixel设备中。


在一口气发布的Pixel 9系列手机中,谷歌也探索了「AI+手机」的新样态:Gemini、安卓、Pixel的融合,会孵化出怎样的端侧AI产品形态。


现在,凭借AI加持的安卓,谷歌能击败苹果吗?


谷歌的「Her」,也来了


根据谷歌介绍,Gemini Live是一款全新的移动对话体验。


如果我们想要头脑风暴一下,根据自己的技能和学历能找到什么样的工作,Gemini可以立刻跟我们实时对话。


这个感觉,就仿佛口袋里有了一个随时可以聊天的贴心助手。


而且同OpenAI一样,谷歌的语音功能,同样可以让用户以自然的对话语言和它交流,它的回应也用的是真人般的声音和节奏。


请听下面这个音频,几种男声和女声的音色都很自然。



为了让我们拥有最自然的体验,谷歌一口气推出了10种声音,我们可以随心选择自己最喜欢的语调和风格。


另外,Gemini Live还支持免提功能。即使Gemini应用程序在后台,或者手机正在锁定,我们依然可以和它对话,就仿佛在普通的电话中一样。


还有,我们可以随时打断它、更改话题——看着很眼熟对吧?没错,OpenAI的语音能做的,它都有。



五月份OpenAI惊艳全场的高级语音功能「Her」,如今依旧在鸽,上个月底也只是选择性地向一小部分Alpha测试参与者开放。


在速度上,谷歌明显吊打了OpenAI。


现在只要花每月19.99美元,就可以在安卓设备上使用Gemini Live了,只要进入谷歌Gemini应用程序即可。


目前开放的是英语版本,而iOS版本和更多语言的支持,还会在未来几周内推出。


另一方面,在用户规模上,谷歌的高级语音模式也会接触比OpenAI更广泛的潜在用户。


要知道,如今全世界有超过30亿的安卓用户,和22亿的iOS用户。


而OpenAI的语音功能鸽了的部分原因,恐怕是跟红队测试中AI的异常表现有关。


它的行为令人不安,甚至存在潜在的危险。而未经同意模仿用户的声音,还有可能被用于欺诈等恶意目的。


这些安全问题,谷歌就完全解决了吗?目前没人知道,但很明显——不想屈居人后的谷歌,决定这次也豁出去一把。


但翻了两次车


唯一不足的是,Gemini Live现场演示,出现了一些小插曲。


谷歌高管Dave Citron在展示Gemini在安卓新机连接谷歌日历、任务和Keep的新功能时,没想到接连翻车两次。



他先用手机拍摄了一张Sabrina Carpenter在旧金山举行时装秀宣传海报,然后问道Gemini,「查看我的日程,看看是否有空参加Sabrina Carpenter的时装秀」。


Gemini第一次回复中,却说这里出错了,再尝试一次。



第二次重复尝试刚刚步骤时,Gemini依旧没有答复。



直到第三次(换了一个设备),终于给出了结果,现场一阵欢呼。



重新定义AI助手


在这次演讲中,谷歌表示:通过Gemini,他们重新构想了个人助手对人类真正有用的意义——更自然、对话式、更直观。


连接更多应用程序


一个好的AI助手,最重要的关键词是什么?


连接。


Gemini就是如此,它会跟我们使用的所有谷歌应用程序和工具集成,完成大大小小的任务。


而跟其他助手不同的是,我们无需耗费功夫,在应用程序和服务之间切换。


而在未来几周,谷歌还会推出全新的扩展功能,包括Keep、Tasks、Utilities和YouTube Music。



假设现在我们要办一场晚宴,Gemini就可以发挥它的百般武艺了——


从Gmail中,它可以找出某人发给我们的千层面食谱,然后把配料添加到Keep的购物清单中;然后,在让Gemini为我们攒一份歌单,要求是「让我想起90年代末」。


在谷歌即将推出的日历扩展功能中,我们可以直接拍一张音乐会的海报,问Gemini:我当天有空不?如果答案是yes,还可以让Gemini帮我们设置提醒,准备抢票。



一键召唤Gemini


现在,Gemini已经完全融入了安卓的用户体验。


只有在安卓系统中,我们才能体会到如此丝滑的上下文感知功能。


只要拿着一部安卓手机,无论我们想要做什么,Gemini都能在需要时应声出现。


长按电源按钮,或者说一声「Hey Google」,就能召唤出Gemini了!


点击「询问此屏幕」,就可以获取有关屏幕内容的帮助。


如果正在使用YouTube,可以向Gemini询问有关视频的问题。


比如,假设我们正在为出国旅行做攻略,刚看完一个旅游视频博客,点击「询问此视频」,让它列出视频中出现的所有餐馆、添加到谷歌地图中,Gemini就会一一照做。


再看下图,Gemini生成的图像,可以直接拖放到Gmail和Google Messages中。



相信你已经体会到,这套操作中的妙处了——


因为Gemini为安卓构建了深度集成,AI能做的就不仅仅是读取屏幕内容,还能与我们已经在使用的许多应用进行交互。


Gemini 1.5 Flash,加持AI助手


不过,还有两个问题:能更好地解释自然语言和处理任务的LLM,往往意味着即使完成简单任务,也需要更多的时间。


而AI如果表现出意想不到的行为,或提供不准确的信息,也很让人头疼。


为此,谷歌特意引入了新模型——Gemini 1.5 Flash。


它的响应更快,回答的质量也更高。


在未来几个月内,谷歌还会把模型与Google Home、Phone和Messages进行更深层的集成。


谷歌表示,今天我们正式到达了一个拐点,AI助手的有用性,远远超过了它们的挑战。


基于Imagen 3打造,2秒生图


会上,谷歌还推出了一款全新的AI生图应用——Pixel Studio。


仅需要几个提示词,就能生成一幅精美的图片。



最重要的是,它是一个本地生图APP,基于Imagen 3打造,2秒之内便可生成各种图像。



同在今天,Imagen 3的技术报告也出炉了,技术细节可参见32页论文。



首款AI手机,每月要氪20刀


所有这些AI能力,谷歌全都植入到了最新手机硬件之中。


现场,谷歌一共发布了四款AI手机——Pixel 9、Pixel9 Pro、Pixel9 Pro XL,以及二代折叠屏Pixel 9 Pro Fold。



在Pixel 9系列新机上,你一定不能错过的,就是AI加持的拍照能力。


谷歌表示,图像处理算法——HDR+pipeline,已完全重建,可以让拍摄的照片有更好的对比度、阴影、曝光、锐化、色彩等。



以下是Pixel 9系手机新增的AI图像编辑能力:


Add Me


你是否常常遇到,家庭聚会、团建、家人旅行时,担起了拍照的重担,然而照片中唯独少了自己。


不过,以后就不用担心了。


谷歌「加我一个」(Add Me)功能,就能弥补你的遗憾。



首先,需要拍摄一张团体照。然后,负责拍照的人与照片中的人交互位置,拍摄一张「摄影师」在内的照片。


这时,Pixel使用实时AR技术,引导第二个拍照的人去构图,让其与第一张照片构图相匹配。


最后,然后,Pixel将两张图像合并,确保每个人都出现在同一张照片中,包括「摄影师」在内。


Reimagine


另一个Reimagine功能,便很好理解了。


这时Magic Editor编辑器中的一项能力,直接在文本框中描述你想要的效果。


AI即可让你的想法变成现实。


比如,修改照片中的背景,火山、日落、极光各种场景,随意发挥。



Zoom Enhance


Zoom Enhance可以自动填充像素之间空隙,并精准预测细节,实现高质量的拍摄放大效果。



AI能力的实现,离不开Pixel 9系列背后强大的芯片。


最强AI处理器:Google Tensor G4


新款手机采用了谷歌全新设计的处理器——Google Tensor G4。


谷歌称,「Tensor G4芯片是我们迄今速度最快、功能最强大的芯片」。



在去年Tensor G3的基础上,谷歌联手三星打造了基于4nm工艺的半定制处理器Tensor G4,利用了Arm提供的CPU和GPU核心。


同时,它还用上了谷歌自家的模块,来增强AI、摄影和安全功能。


据悉,相比于前两代,G4在网页浏览速度提高了20%,APP启动提速17%,应用日常使用电池功耗提升多达20%。



CPU方面,G4配备了1个运行在3.1GHz的Cortex-X4核心、3个运行在2.6GHz的Cortex-A720核心,以及4个运行在 1.95GHz 的 Cortex-A520核心。


相比之下,Tensor G3则是1个2.91GHz的Cortex-X3核心,4个2.37GHz的Cortex-A715核心,以及4个1.70GHz的Cortex-A510核心。


尽管Tensor G4少了一个核心,但所有核心的时钟频率都提高了200MHz到300MHz。


根据泄露的Geekbench跑分,Tensor G4在单核测试中得分为2,005,多核测试为4,835。相比之下,Tensor G3在单核测试中的得分为1,751,多核测试为4,208。均有14%的性能差异。



至于GPU,Tensor G4采用了与去年Tensor G3相同的ARM Mali-G715 GPU,但频率从890MHz提升到了940MHz。这意味着Tensor G4的GPU性能应该略优于Tensor G3。



加持全新AI功能


AI当然是Tensor项目背后的主要推动力之一。


重新设计的Tensor G4,便是为了赋能最新Gemini和计算摄影功能。



可以本地运行的Gemini Nano模型(最大版本为35亿参数),能够以45 token/s的速度输出内容。


虽然,谷歌的TPU已经很快,但在token处理方面,并没有领先于竞争对手。


相较之下,高通Snapdragon 8 Gen 3运行100亿参数时,每秒可输出15个token;联发科Dimensity 9300能以每秒 20个token运行70亿参数。


不过,Pixel 9系列的独特AI功能可能不完全依赖于新芯片,而是其他因素的结果。


AI还需要大量的内存,并且需要访问快速且庞大的内存池来运行更复杂的模型。


Pixel 9配备12GB RAM,Pro系列升级到16GB。


谷歌表示,为了获得更流畅的AI体验,这是它首次划分出「一部分专用RAM来在设备上运行Gemini」,防止其他应用使用该内存。


不过,谷歌没有透露具体划分了多少,给AI任务使用。


尽管芯片本身在AI方面没有重大升级,但通过RAM管理的优化,仍可能带来更好的AI体验和新功能。


参考资料:


https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/


文章来自于公众号 “ 新智元 ”



关键词: Her , Gemini , AI , 谷歌Her , AI手机
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0