ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
抢先OpenAI,Hume AI发布第二代情感智能AI,支持自定义语音,在线可玩
3179点击    2024-09-21 12:10


相比第一代, 延迟降低40%,成本还降低30%。



智东西9月19日消息,据VentureBeat今日报道,AI情感创企Hume AI于9月11日发布了Empathic Voice Interface 2(EVI 2)。


EVI被宣称为全球首个具有情商的对话式AI。EVI能够通过分析用户的语音,如口音、语气、语调、拟声词、节奏和停顿等,来理解用户的情绪和心理状态,并做出实时响应。


与EVI 1相比,新发布的EVI 2的响应延迟减少了40%,且成本降低了30%。此外,新一代EVI还进行了一系列功能增强与更新:语音质量的提高,情商与同理心的增强,支持自定义语音……


Hume AI由前谷歌DeepMind研究员Alan Cowen于2021年创立,他现在担任该公司的首席执行官兼首席科学家。该公司于今年3月27日完成了5000万美元的B轮融资。



官网地址:https://www.hume.ai/


一、功能增强:语音质量和情商的提升,还支持自定义语音


EVI 2集成了一个先进的语音生成模型和情感大型语言模型(eLLM),能够处理和生成文本及音频。这种多模态方法使得EVI 2生成的语音听起来更自然,语调更恰当,表现力更高,输出更连续。


此外,在同一模型中处理语音和语言,使得EVI 2可以更好地理解用户输入内容的情感倾向,从而做出相应调整,在内容和语气方面生成更具有同理心的响应。


除了在语音质量和情商方面的提升,新一代EVI 2还支持用户自定义语音。开发人员可以设置音调、鼻音和性别等参数,根据特定的应用需求定制EVI 2的语音,比如应用于客服机器人、虚拟AI助手。


EVI 2还支持用户在交互过程中通过语音提示,动态修改EVI 2的说话风格。例如,“说得更快”、“语调听起来很兴奋”,甚至还可以“进行说唱“。


根据Hume AI的介绍,EVI 2还能够与其他应用程序、大语言模型进行集成,在客服通话、网页搜索等功能中使用。


Cowen在上周与VentureBeat的视频通话中谈道:“我们希望开发者能够将这个模型集成到任何应用中,创建他们想要的品牌语音,并根据他们的用户需求进行调整,使其品牌语音变得值得信赖且具有个性。”


此外,他透露道,EVI 2并不打算提供语音克隆的功能。


“我们当然可以用我们的模型克隆声音,但我们没有提供这一功能,因为它的风险太高、益处也不清晰。”他解释道,“人们真正想要的是能够定制声音。我们开发了新的语音,让用户可以创建不同的个性化语音。相比于克隆特定声音,开发者似乎对创建新语音更感兴趣。”



定制语音功能体验地址:https://platform.hume.ai/evi/voices


二、性价比提高:响应延迟降低40%,定价降低30%,年底预计能支持更多语言


EVI 2与EVI 1相比,延迟降低了40%,现在平均响应时间在500到800毫秒之间。速度的改进使对话响应更快、更像人类。


EVI 2还有一大亮点是其成本效益的提高。Hume AI将EVI 2的定价降低了约30%,从第一代的每分钟0.102美元降低到每分钟0.072美元。企业用户还可以享受批量折扣。


不过,根据VentureBeat的计算,OpenAI目前提供的文本转语音服务(非新推出的ChatGPT高级语音模式)要比Hume AI的EVI 2便宜很多。OpenAI的文本转语音服务每1000字符收费0.015美元(大约每分钟语音0.015美元),而Hume AI的EVI 2为每分钟0.072美元。


EVI 2目前仅支持英语,Hume AI计划在2024年底之前推出对西班牙语、法语和德语等多种语言的支持。


Cowen向VentureBeat透露道,得益于他们的训练过程,EVI 2实际上自主学习了多种语言,不需要由工程师进行人为的训练。


“我们没有专门训练模型输出某些特定的语言,但它从训练数据中学会了说法语、西班牙语、德语、波兰语等多种语言。”Cowen解释道。


结语:先于竞争对手公开发布,有望抢占市场


据传,Hume AI潜在的竞争对手Anthropic正在重新打造其投资方亚马逊的Alexa语音助手并准备推出。


另一方面,OpenAI在今年5月展示的由GPT-4o模型支持的ChatGPT高级语音模式,目前只对少数用户开放,在候补名单中的用户仍需等待。


尽管Hume AI并没有像OpenAI或Anthropic那样广为人知,但Hume AI已经抢先于它们公开推出了一个人性化语音助手,并且客户现在就可以立即将其投入使用。这可能为Hume AI在竞争激烈的市场中抢占一席之地。


文章来自于微信公众号“智东西”,作者“Vendii”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/