ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI 「Her」高级语音功能全开放!重庆话、北京儿话都贼溜!
2429点击    2024-09-25 17:04


OpenAI的Her终于全面开放了!


今日凌晨,OpenAI公开宣布Her高级语音模式正式全面开放,在OpenAI的移动端APP上即可体验!



面向ChatGPT Plus和Team用户,一周会逐步全量推送。但是免费用户还是薅不到。。


此外,还带上了一些更新,增加自定义指令、记忆、5种新的声音和改进的口音。与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示。


要知道距离5月OpenAI预告宣布很快带来高级语音模式已经过去4个月了![狗头表情]



OpenAI的CTO和Greg也都在社媒平台为her打call。




接下来,和奶茶一起看下Her的风评吧~


Her的优点!


个性化定义


OpenAI的研究员表示,用户可以自定义指令,以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。在官方给的例子中,展示在ChatGPT中,设置面板可以细节化prompt的相关背景知识来固定GPT-4o说话方式:



OpenAI的技术项目主管Charlotte展示了一个例子,她告诉了GPT她的名字和居住地址,那当她使用语音交互的时候,ChatGPT会自动带入她的身份信息和地理位置给她合适的解答:



支持50种语音


能用50种语言说我迟到了!而且 很擅长于方言!!!


  1. 重庆话


2.北京儿话



3.伦敦腔



4.日本人说英文



AI有活人感了!


根据OpenAI发布的视频,科学家Drew描述了他对GPT-4o语音系统的使用体验:


  • 由于系统的语音表达生动流畅且响应迅速,他常在忙碌工作时将其作为一个静默但随时待命的个人助理,仿佛有一个思维敏捷的朋友坐在身旁。这个系统在不主动发言的情况下保持静默,但一旦提出问题,它能够立即作出反应,并根据对话的语气和内容进行调整,将简短的问题扩展为深入的对话。

  • 不仅能提供信息、倾听想法、激发思考,还能根据特定的提示扮演不同的角色,成为一个理想的多功能助理。由于模型能够忠实地遵循指令并灵活地适应用户的需求,其用途远不止作为个人助理。

  • 你可以让它扮演面试官,帮助你进行模拟面试;或者创建一个完全虚拟的场景,与它一起进行沉浸式的角色扮演。

他强调,所有这些功能都是建立在系统流畅的语速和快速响应的基础上,几乎消除了机械感,让用户感觉仿佛在与真人交谈



而且,根据网友们的使用,Her有感知力、情感意识,而且极其聪明。极度的丝滑流畅+ 有情感可以说非常有活人感了!!!



Her的缺点!


上文说好了Her的种种优点,奶茶也发现虽然Her看似很好用,但是实打实有很多让网友诟病的地方!



时长限制


Her每天可以使用的时间是有限制的,当使用时间不到15分钟的时候,系统会提示!制的,而且每天都有可能会调整。因此我们并不能和ta在24小时内随心畅谈。


不能和GPTs组合


GPTs不能和Her高级语言模式一起使用,这对于习惯用GPTs语音版本的用户来说并不少特别友好!


识别别人的情绪是犯法!


虽然Her目前在欧盟地区无法使用,但许多欧盟网友对此表示遗憾。他们希望能够体验这款高级语言AI,期待未来能够合法使用:



但是,根据欧盟的相关法律,Her未经他人许可擅自识别他人情绪的做法属于违法行为。欧盟高度重视个人隐私权的保护,因此对此类行为有严格的管控措施:



OpenAI与Google似乎有愁


还有一个很有意思的是,这次OpenAI又和Google撞车了!


谷歌于9月25日清晨推出两款全新语言模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。



其中,Gemini Pro是一款中型付费模型,面向付费用户开放;而Gemini Flash则是从Gemini Pro蒸馏而来的免费模型,它在今年5月的谷歌I/O大会上首次亮相,目前普通用户可免费使用,开发者也拥有一定的免费API使用配额。


此次升级的重点在于:Gemini Pro的价格下调逾50%、Gemini Flash的速率限制提高一倍、Gemini Pro的速率限制提高约3倍、输出速度加快2倍、延迟降低3倍,同时过滤器切换为可选加入。


本次Gemini模型的发布由谷歌员工Logan Kilpatrick主理对外沟通,他曾担任OpenAI的开发者关系负责人,于2024年加盟谷歌。



有趣的是!有媒体报道称Meta在本周也将推出名人语调的音频对话功能!


文章来自于微信公众号“夕小瑶科技说”,作者“付奶茶”


关键词: openai , Her , AI , chatGPT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0