AI资讯新闻榜单内容搜索-实时语音

OpenAI 推出三款实时语音模型，可边听边「思考」、翻译和转录

不知道大家平时有没有这种经历。

来自主题: AI资讯

8168 点击 2026-05-08 10:18

Realtime API 是 OpenAI 的实时语音交互接口，在 24 年的 DevDay 首次亮相，当时还是 beta，调用贵到离谱，音频输出 200 刀/百万 token：OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

来自主题: AI技术研报

9969 点击 2026-05-06 09:49

昨日凌晨，谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live，并在Gemini App、Search Live以及Google AI Studio中同步开放，其中后者以预览版本向开发者提供。

来自主题: AI资讯

11092 点击 2026-03-27 14:41

2月以来，OpenClaw（前身为Clawdbot、Moltbot）卷疯AI圈。在2月21日OpenClaw发布的最新版本中，正式接入了Google Gemini 3.1 Pro预览版，还将Discord引入实时语音与连续路由功能。

来自主题: AI资讯

11442 点击 2026-02-23 10:54

近期，FlashLabs 发布并开源了其实时语音模型 Chroma 1.0，其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后，便在社媒爆火，吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。

来自主题: AI资讯

9818 点击 2026-01-23 16:25

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

来自主题: AI资讯

10622 点击 2025-12-15 11:36

Google 周五宣布，正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验，还大幅提升了文本翻译的语境理解能力，并扩展了应用内的语言学习工具。

来自主题: AI资讯

11099 点击 2025-12-14 13:20

来自AI语音独角兽公司ElevenLabs，刚刚发布了Scribe v2 Realtime实时语音转文本模型，网友表示：Next-Level。150毫秒的超低延迟，93.5%的高准确率，还覆盖了90多种语言。

来自主题: AI资讯

9559 点击 2025-11-13 08:19

在AI行业新诞生的「多模态交互」赛道上，声网发布的「对话式AI引擎」，让所有文本大模型秒变多模态，具备实时语音对话能力，补齐了大模型「失语」的短板。

来自主题: AI资讯

11473 点击 2025-02-26 14:46

早上MiniMax上线TTS，字节上线AI编程Trae；下午字节全量上线豆包实时语音；晚上DeepSeek开源R1性能直接对标OpenAI o1，然后Kimi的k1.5直接正面硬刚。昨天的余温还没过，今天下午，腾讯混元又悄悄开了个闭门发布会，作为混元的老基友，我自然是受邀参加期期不落。

来自主题: AI资讯

10650 点击 2025-01-21 22:41