AI资讯新闻榜单内容搜索-语音模型

Grok发布AI语音模型Grok Voice Think Fast 2.0！登智能体测评榜首，比OpenAI家便宜一半

今日，马斯克旗下SpaceXAI宣布推出新一代语音模型Grok Voice Think Fast 2.0，这是该公司迄今能力最强的语音到语音（speech-to-speech）模型。马斯克连发两条推文，第一条宣布“Grok Voice现在在智能体性能方面排名第一”，第二条则直接喊话网友“试试新的Grok Voice”。

来自主题: AI资讯

8259 点击 2026-07-30 10:33

刚刚，ChatGPT 语音大升级，奥特曼：既神奇也真实

就在刚刚，OpenAI 正式推出了全新一代语音模型 GPT-Live。正如它的名字一样，这一次，ChatGPT 的语音功能彻底「活」了过来。据官方透露，目前每周有超过 1.5 亿人使用 ChatGPT 的语音和听写功能来练习外语、讲睡前故事或在通勤时打发时间。而从今天起，这 1.5 亿人将迎来一次豆包式的进步：

来自主题: AI资讯

8656 点击 2026-07-09 09:50

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8875 点击 2026-06-24 10:29

xAI再失华人大将：预训练负责人已离职，马斯克又留不住人了

刚刚，xAI再失一名华人大将。就在今天，预训练负责人庄钧堂官宣了自己的离职消息。此前，庄钧堂已经在xAI工作了两年。这期间，他主导了从Grok 2到Grok 5的全系列预训练，同时负责Grok在X和Tesla上的语音模型及xAI企业API模型。

来自主题: AI资讯

9023 点击 2026-05-09 13:17

OpenAI 推出三款实时语音模型，可边听边「思考」、翻译和转录

不知道大家平时有没有这种经历。

来自主题: AI资讯

8213 点击 2026-05-08 10:18

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景，在架构上引入Multi-Token Prediction（多Token预测）以提升推理效率，并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯

10110 点击 2026-04-25 10:22

这个模型让仿生人们第一次长出了嘴

看到标题《这个模型让机器人长出了嘴》，你可能会心生疑惑： AI不是早就懂语音播报了吗？

来自主题: AI资讯

7652 点击 2026-04-21 16:09

小米AI语音新框架：人人都能当声音导演

语音合成大家都不陌生，这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报

10947 点击 2026-04-08 16:58

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

面壁智能2B小模型VoxCPM 2惊艳开源，一众外国网友疯狂了！30种语言与9大方言它是信手拈来，复刻的贺炜激昂解说与徐志胜脱口秀，相似度简直直击灵魂。这哪是工具，分明是降维打击的生产力核武器！

来自主题: AI资讯

9307 点击 2026-04-08 16:28

美团开源“语音克隆”模型，1B/3.5B双选，超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚，美团LongCat团队发布了文本转语音模型LongCat-AudioDiT，并开源1B、3.5B参数量的版本。这一模型的最大特点，是彻底抛弃了梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说，这一模型直接根据声音本身的规律进行生成，“雕刻”出最原始的声音波形，从根源阻断数据转换的级联误差。

来自主题: AI资讯

9704 点击 2026-04-02 13:51