AI资讯新闻榜单内容搜索-tts

让 AI 开口「像人」：最难的不是智能，是「嗓音」

Voice Agent 赛道正在爆发，但它迫切需要一个能让对话真正「流动起来」的底层引擎，一个能撑起下一代交互体验的 TTS 模型。竞争的焦点，已经从 LLM 的「大脑」，延伸到了 TTS 的「嗓音」。谁掌握嗓音，谁就掌握着下一代 AI 商业化的钥匙。而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型，似乎正是一个专为解决这些痛点而来的答案。

来自主题: AI资讯

9159 点击 2025-10-31 15:35

清华&巨人网络首创MoE多方言TTS框架，数据代码方法全开源

无论是中文的粤语、闽南话、吴语，还是欧洲的荷兰比尔茨语方言、法国奥克语，亦或是非洲和南美的地方语言，方言都承载着独特的音系与文化记忆，是人类语言多样性的重要组成部分。然而，许多方言正在快速消失，语音技术如果不能覆盖这些语言，势必加剧数字鸿沟与文化失声。

来自主题: AI技术研报

8781 点击 2025-10-16 12:08

跳出套路、月入百万，这家公司验证了“AI+声音”的另一种赚钱方式

在我们往期观察“AI+声音”的应用中，多是 TTS、AI 生成播客和读书/配音等方向，先有文字内容、后转化为声音输出的偏“工具”类产品。当大多数产品在探索如何用 AI 声音改变内容传播的形式时，一家德国厂商却在另一个方向持续耕耘，并且维持了不错的流水表现。

来自主题: AI资讯

9498 点击 2025-09-30 16:35

阿里一夜扔出三个开源王炸！猛刷32项开源SOTA

深夜，阿里通义大模型团队连放三个大招：开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。Qwen3-Omni能无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。

来自主题: AI资讯

9205 点击 2025-09-23 16:33

没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源 33 款、31 款各类型大模型。

来自主题: AI资讯

10370 点击 2025-09-19 09:22

B站出海的强有力支柱：最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

最近在 B 站上，你是否也刷到过一些 “魔性” 又神奇的 AI 视频？比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色，连情感和韵律都做到了高度还原！更让人惊讶的是，它们居然全都是靠 AI 生成的！

来自主题: AI技术研报

8509 点击 2025-09-18 15:54

偶然刷到的一个逆天ElevenLabs开源平替！

订阅了 ElevenLabs 的小伙伴看过来，它的开源平替来了！Chatterbox 是全球首个支持强烈情绪控制的开源TTS 模型，更是号称开源 TTS 中的 SOTA ，由 Resemble AI 推出。

来自主题: AI资讯

8146 点击 2025-09-05 11:35

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。

来自主题: AI技术研报

9380 点击 2025-09-03 12:03

全球第一再升级！MiniMax Speech 2.5上线：多语种表现力更强，音色复刻更“像”

今天，MiniMax发布新一代语音生成模型Speech 2.5，再次刷新全球最强语音模型的上限。

来自主题: AI资讯

7779 点击 2025-08-08 14:17

FlowSpeech：全球首个书面语转口语的 TTS

FlowSpeech的开发初衷源于一个感人故事。一位年过八旬的美国老人因长期病痛失去说话能力，但通过AI工具ListenHub继续与他人分享自己的人生经历。这个真实案例启发了开发团队，促使他们研发出专门针对书面语向口语转换的TTS技术解决方案。

来自主题: AI资讯

10407 点击 2025-08-07 21:56