「未来,消费者更可能倾向于与 AI 沟通,而非人工客服,因为这将成为解决问题的最高效途径。」
「未来,消费者更可能倾向于与 AI 沟通,而非人工客服,因为这将成为解决问题的最高效途径。」
清华大学推出的SonicSim平台和SonicSet数据集针对动态声源的语音处理研究提供了强有力的工具和数据支持,有效降低了数据采集成本,实验证明这些工具能有效提升模型在真实环境中的性能。
GPT-4o 的语音演示,引燃了行业对于 AI 产品语音实时交互的想象,完全实时、可随时打断的 AI 助手,正成为新的 趋势。
有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
在对标OpenAI之路上,智谱AI又近了一步。 今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。
昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。 灰度测试的内容是Kimi的语音通话功能。 现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。
只需3秒,你的声音就能被完美克隆。 谁能想到科技圈顶流之一的雷军,居然因为AI语音引起互联网热议?
据TechCrunch报道,投资者们正争相进入 ElevenLabs,该公司可能很快就会被估值为 30 亿美元。
十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办,刚刚结束的是第一场。