百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0
百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。
近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。
谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。
Google 周五宣布,正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验,还大幅提升了文本翻译的语境理解能力,并扩展了应用内的语言学习工具。
来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
在AI行业新诞生的「多模态交互」赛道上,声网发布的「对话式AI引擎」,让所有文本大模型秒变多模态,具备实时语音对话能力,补齐了大模型「失语」的短板。
早上MiniMax上线TTS,字节上线AI编程Trae;下午字节全量上线豆包实时语音;晚上DeepSeek开源R1性能直接对标OpenAI o1,然后Kimi的k1.5直接正面硬刚。昨天的余温还没过,今天下午,腾讯混元又悄悄开了个闭门发布会,作为混元的老基友,我自然是受邀参加期期不落。
就在刚刚,豆包的超级实时语音全量上线了。
OpenAI Realtime API 的「说明书」。
今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
家人们!OpenAI 这 12 天的连续剧大家都追完了吗?别急着下线!