
百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节
百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节大家好,我是小瑶,今天是你们的 AI 前排吃瓜 + 技术解读博主。
来自主题: AI资讯
6880 点击 2025-04-02 10:35
大家好,我是小瑶,今天是你们的 AI 前排吃瓜 + 技术解读博主。
语音合成大模型赛道,王者一夜易主。
更适配中文的语音大模型来了—— 来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。 号称最难方言、“魔鬼的语言”的温州话,也不在话下。
近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。