AI资讯新闻榜单内容搜索-语音模型

xAI再失华人大将：预训练负责人已离职，马斯克又留不住人了

刚刚，xAI再失一名华人大将。就在今天，预训练负责人庄钧堂官宣了自己的离职消息。此前，庄钧堂已经在xAI工作了两年。这期间，他主导了从Grok 2到Grok 5的全系列预训练，同时负责Grok在X和Tesla上的语音模型及xAI企业API模型。

来自主题: AI资讯

8307 点击 2026-05-09 13:17

OpenAI 推出三款实时语音模型，可边听边「思考」、翻译和转录

不知道大家平时有没有这种经历。

来自主题: AI资讯

7644 点击 2026-05-08 10:18

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景，在架构上引入Multi-Token Prediction（多Token预测）以提升推理效率，并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯

9601 点击 2026-04-25 10:22

这个模型让仿生人们第一次长出了嘴

看到标题《这个模型让机器人长出了嘴》，你可能会心生疑惑： AI不是早就懂语音播报了吗？

来自主题: AI资讯

7112 点击 2026-04-21 16:09

小米AI语音新框架：人人都能当声音导演

语音合成大家都不陌生，这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报

10520 点击 2026-04-08 16:58

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

面壁智能2B小模型VoxCPM 2惊艳开源，一众外国网友疯狂了！30种语言与9大方言它是信手拈来，复刻的贺炜激昂解说与徐志胜脱口秀，相似度简直直击灵魂。这哪是工具，分明是降维打击的生产力核武器！

来自主题: AI资讯

8920 点击 2026-04-08 16:28

美团开源“语音克隆”模型，1B/3.5B双选，超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚，美团LongCat团队发布了文本转语音模型LongCat-AudioDiT，并开源1B、3.5B参数量的版本。这一模型的最大特点，是彻底抛弃了梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说，这一模型直接根据声音本身的规律进行生成，“雕刻”出最原始的声音波形，从根源阻断数据转换的级联误差。

来自主题: AI资讯

9084 点击 2026-04-02 13:51