ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
又热闹了!OpenAI的加强版“Her”正式开放,压过了Gemini的“生产级”大升级…
6917点击    2024-09-25 10:38


今天真是AI圈久违了的热闹一天啊!


昨天刚被奥特曼发的那篇AI小作文搞得一头雾水,现在他这波操作的意图就呼之欲出了。


奥特曼想临门狙击的正是宿敌Google,更确切地说,是Google今天刚刚更新的两款升级版Gemini模型:Gemini-1.5-Pro-002Gemini-1.5-Flash-002


狙击方式简单粗暴:直接宣布万众期待的GPT语音功能今天起正式开放。


两个小时不到,就双叒抢走了Google好不容易的高光时刻。我要是Google我得气吐血吧。



GPT高级语音来了,会50多种语言


OpenAI称,ChatGPT的高级语音模式(Advanced Voice Mode)将在本周内逐步向所有Plus和团队用户推出。


在人们耐心等待的同时,团队完善了部分功能,包括新增自定义指令、记忆功能、5种新声音,并改进了口音。



由于实在被大家念叨了太久,OpenAI特别表示了一下:“它能用50多种语言说出’抱歉,我迟到了‘。”


并且放了一个从英文切换到普通话的示例:“奶奶对不起,我迟到了。我不是故意让您等这么久的,我可以怎么补偿您呢?”


——好家伙,这一下子都当上GPT的奶奶辈了,硬逼着我原谅你啊。



视频中可以看到,语音模式现在以一个跳动的蓝色球体表示,而不是OpenAI在5月展示技术时使用的黑色动画点。


当获得访问权限时,应用内会弹出一个提示。先是对Plus和Teams层级用户开通,下周起扩展到企业和教育用户。



ChatGPT还添加了五种新语音以供体验:Arbor、Maple、Sol、Spruce和Vale。至此,加上之前的Breeze、Juniper、Cove和Ember,ChatGPT的语音总数已达到了9种(Google的Gemini Live语音数量为10种)。


可能你也注意到了,这些名字都是从大自然中汲取灵感的,从“枫树”、“微风”到“太阳”、“山谷”,也许是为了让使用感觉更加自然。一个缺席的声音是Sky,也是OpenAI在春季发布会时展示的语音,因涉及与电影《Her》主演斯嘉丽·约翰逊的法律争议而下架。



OpenAI还将ChatGPT的一些定制功能扩展到了高级语音模式,包括允许用户个性化回应的「自定义指令」功能,以及允许ChatGPT记住对话供以后参考的记忆功能。


比如下面视频里,在系统设置的自定义ChatGPT菜单中,输入 “我的名字是夏洛特,我住在旧金山湾区。”再询问周末户外活动时,GPT就会以夏洛特称呼用户,提供符合本地天气和交通的建议。



OpenAI称团队改进了部分外语中的响应速度、流畅性以及口音。语音会根据对话语气进行调整,你可以创建场景,提示它扮演不同的角色。声音延迟非常低,理解力也更强,真的像是和另一个人自然对话。


不过OpenAI四个月前展示过的视频和屏幕共享功能此次并未更新。当时工作人员向GPT询问纸上的数学题和电脑屏幕上的代码,通过自然语音对话获得了实时解答。目前,OpenAI尚未提供这项多模态功能的推出时间表。


此外高级语音模式也暂时不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。


尽管如此,终于能亲自上手OpenAI版的“her”,对已经混AI圈混到审美疲劳的人们来说,确实算一件值得兴奋的事了。加上才制造了一波热潮的o1-preview,OpenAI又妥妥硬控业界一周。



这一激动也把大伙儿整地间歇性失忆了:


话说Google今天是发了个啥来着?


Gemini 1.5 升级两款新模型,价格减半,速率提升


Google这次的更新其实也很重磅,至少对于开发者来说。


根据Google Blog,这次他们更新了两个生产级Gemini模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。所谓“生产级”,是指AI模型经过了充分的开发、测试和优化,已准备好商业化部署,能处理大量用户请求、应用于产品服务中,而不仅仅是用于实验或研究。


作为今年5月I/O大会亮相的Gemini 1.5系列模型的重大升级,新模型更快、更强大,也更具成本效益。



主要亮点概括为:


1. 价格大幅降低:1.5 Pro的输入和输出价格下降约50%,大幅降低了构建成本,尤其是对小于128K token的提示。



2. 整体质量改进:尤其在数学、代码生成、长文本上下文和视觉任务上的性能提升显著,包括在MATH、HiddenMath等基准测试中提高约20%,视觉和代码应用提高2%-7%。



3. 速率限制提高:1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM(Requests Per Minute)和360RPM提高至每分钟2000 RPM和1000 RPM,使开发者能够更快构建和处理任务。


4. 更快输出和更低延迟:输出速度提升2倍,延迟降低3倍,为更高效的应用场景提供支持。



5. 更简洁的响应:响应风格更简洁、成本更低,输出长度缩短5%-20%,同时在许多话题上减少了拒绝和回避的次数,并保持高有用性。


6. 多模态和长上下文支持:1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务,如1000页PDF或长视频的内容生成。


7. 更新的过滤设置:模型的默认安全过滤器不再自动应用,开发者可以根据需要定制模型的安全设置。


开发者可以通过Google AI Studio和Gemini API免费访问这两个最新模型。大型组织和Google Cloud客户也可在Vertex AI上使用新模型。


笼罩在GPT阴影下的Gemini


但在同行对比下,不少普通用户对Google这次动作表达了失望,觉得这甚至算不上真正意义的“发布”。


Abacus.AI CEO、知名博主Bindu Reddy说,“唉,OpenAI发布了通过智商测试的o1,而Google只是对Gemini 1.5进行了一些小更新。他们拥有100倍的资源、10倍的人才和10倍的所有东西,怎么会这样呢?”



尽管开发者中还是有些人为Google说话,比如Reddit讨论区就有网友表示:


“对于那些实际在构建应用并试图降低成本、增加利润的人来说,这些都是有用的东西。我正在做的应用有一个每次操作的固定成本,由token长度决定,这让我的利润提高了大约30%以上。这对大多数人来说可能没什么意思。我知道很多人会因为谷歌的这个“公告”而生气——但实际上这对开发人员来说是一个不错的更新。”



价格对半砍、速率提升、延迟降低,这些确实正中开发者下怀。但正如大家所说,吸引力也许仅限于开发者群体了。



甚至连一些开发者也嗤之以鼻:“我没看到跟Claude或o1的比较,而我们马上就要迎来下一代OpenAI和Anthropic模型。DeepMind其实拥有远超目前的模型,但他们在走直接面向企业的路线,绕过了大众。Gemini令人印象深刻吗?完全不,简直令人失望透顶。”


Google对于模型的糟糕命名也被网友群嘲,认为其冗长且易混淆。



The Information近期发布了一篇名为《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通过对多位AI公司创始人和Google内部员工的采访,讲述了Gemini如何被开发者“抛弃”,在追赶ChatGPT时遇到的阻滞和困境。


比如,相比竞争对手的技术,调用Gemini对于开发者和企业来说过于复杂。Topology创始人Aidan McLaughlin表示,他首次使用OpenAI的API仅用了30秒,而使用Gemini则花了4个小时。同时Google的大模型性能却排在OpenAI和Anthropic之后,并不值得他跨过这些障碍。


相较于ChatGPT,Gemini在开发者中的不受欢迎似乎是现实世界公开的秘密。


企业软件初创公司Retool在6月份对750多名科技员工进行的调查发现,仅有2.6%的受访者表示他们最常使用Gemini来构建AI应用,超过76%的人选择使用GPT。


Similarweb追踪的网站流量数据显示,6月至8月期间,OpenAI的应用开发者页面访问量达8280万次,而谷歌的页面访问量为840万次。


较小的非正式调查也提供了类似的证据。上月底,Finetune的创始人Julian Saks向他在旧金山联合办公空间的50名AI初创企业开发者询问他们最常使用的对话式AI模型。几乎所有人都表示,他们主要使用的是Anthropic或OpenAI的模型,没有人提起Gemini。


尽管Gemini模型在分析长文档或长代码库时非常有用,但许多开发者表示,谷歌的模型选项种类繁多,步骤复杂,开发者系统也与OpenAI的不同,更难使用。并且有时,Google提供的不同服务还会在它自己的搜索结果中互相竞争,使得人们在试图搞清楚这些工具时很容易被“绊住”。


Gemini因此经常在X上被嘲笑。安全初创公司Xbow的AI研究员Brendan Dolan-Gavitt本月早些时候发了一条推文,详细介绍了他通过Vertex开始使用Gemini所需的众多步骤,迅速走红。其他开发者纷纷评论区表示同情。


在一个“世界上领先的工程师都在使用OpenAI、Claude或Cursor”的环境中,开发者们确实没有必要再去尝试其它。而反过来说,使用量的走低又无法让Gemini获得ChatGPT一样多的数据反馈,致使Google在改进模型上会面临更模糊的路线图。


失望是因为人们对Google期待很高


Google正试图改变这种看法,包括通过在X上回应对Gemini的批评,将更多OpenAI等公司的明星技术专家纳入麾下、将部分重叠的开发功能合并等。他们还通过举办开发者活动来宣传Gemini。


今天与Gemini-1.5-Pro-002推出同步进行的,还有一场Gemini for Work的线上活动,Google花了大量篇幅宣讲Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的应用案例。 据悉,他们正试图通过提供一定程度的“白手套”服务来拉拢更多大企业客户。


只是在根深蒂固的市场份额面前,Google的反击之路可能没那么好走。


AI Studio的产品负责人Logan Kilpatrick今年4月加入前曾于OpenAI负责开发者关系,他表示:“实际情况是,OpenAI在LLM API开发者工具方面领先于谷歌。我们必须与他们当前在开发者中根深蒂固的市场份额作斗争。”


稍早前AI圈知名博主Rowan Cheung曾预告,自己完成了一个关于AI模型重大升级的采访,今天开发者们将迎来一个大日子。


那篇推文下面,Logan Kilpatrick的笑脸字符表情在一大片“怎么不是Claude Opus 3.5”的遗憾声中略显尴尬。


保守、争议、滞后是今天Google这位AI巨头给社区留下的刻板印象。Gemini-1.5-Pro-002的推出似乎也并未打破这一僵局。


人们对这家公司的失望,都是来自对它的期待很高:这么强的实力和人才储备,却无法给世界更多的“替代”OpenAI的选项,谁都会感到遗憾。




文章来源“硅星人Pro”,作者“Jessica”



关键词: AI , Her , openai , chatGPT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda