
AI用北京话念绕口令,清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源
AI用北京话念绕口令,清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源实现智能、类似人类的端到端语音聊天。
实现智能、类似人类的端到端语音聊天。
Tenyx利用AI和ML,打破传统IVR系统的局限,为多元化行业提供精准、自然的语音交互解决方案,引领客户服务领域的技术革命。
人工智能语音初创公司PlayAI宣布在种子轮融资中筹集了2100万美元。该公司表示,将利用这笔资金投资于其生成式人工智能(GenAI)语音模型和语音代理平台。
「未来,消费者更可能倾向于与 AI 沟通,而非人工客服,因为这将成为解决问题的最高效途径。」
清华大学推出的SonicSim平台和SonicSet数据集针对动态声源的语音处理研究提供了强有力的工具和数据支持,有效降低了数据采集成本,实验证明这些工具能有效提升模型在真实环境中的性能。
GPT-4o 的语音演示,引燃了行业对于 AI 产品语音实时交互的想象,完全实时、可随时打断的 AI 助手,正成为新的 趋势。
有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
在对标OpenAI之路上,智谱AI又近了一步。 今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。
昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。 灰度测试的内容是Kimi的语音通话功能。 现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。