AI资讯新闻榜单内容搜索-Audio

模思智能完成亿元融资，上海国投、IDG、华为等联合投资

模思智能成立于2024年，位于上海徐汇区，由上海创智学院与复旦大学联合孵化，是国内少数完成“全模态基座模型能力闭环”的初创公司之一，致力于构建统一Token表达框架下的“情境智能”能力，推动Agent系统在真实世界中的自主交互与任务执行。

来自主题: AI资讯

9673 点击 2026-04-11 14:28

小米AI语音新框架：人人都能当声音导演

语音合成大家都不陌生，这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报

9975 点击 2026-04-08 16:58

全球首个射频大模型发布，6G网络的认知大脑有了雏形

2026 年，阿联酋哈利法大学的邹航博士和他所在的团队，做出了全世界第一个射频大模型，名字叫 RF GPT。这个模型能直接看懂无线信号，就像 GPT 4o 能看懂图片、Qwen2 Audio 能听懂声音一样。你把无线信号扔给它，它不仅能告诉你这里面有几种信号、分别是什么技术，还能分析出有没有信号在打架、哪个是 5G 哪个是蓝牙、甚至能数出来 WiFi 网络里有多少个用户同时在用。

来自主题: AI资讯

8585 点击 2026-04-05 11:08

美团开源“语音克隆”模型，1B/3.5B双选，超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚，美团LongCat团队发布了文本转语音模型LongCat-AudioDiT，并开源1B、3.5B参数量的版本。这一模型的最大特点，是彻底抛弃了梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说，这一模型直接根据声音本身的规律进行生成，“雕刻”出最原始的声音波形，从根源阻断数据转换的级联误差。

来自主题: AI资讯

8394 点击 2026-04-02 13:51

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

7421 点击 2026-03-09 14:29

小红书，再造一个更有「声」命力的社区

2026 马年注定迎来一个「AI 味」最浓的春节。

来自主题: AI技术研报

9274 点击 2026-02-12 15:34

刚刚，创智+模思发布开源版Sora2，电影级音视频同步生成，打破闭源技术垄断

今天上午，上海创智学院 OpenMOSS 团队联合初创公司模思智能（MOSI），正式发布了端到端音视频生成模型 —— MOVA（MOSS-Video-and-Audio）。

来自主题: AI技术研报

8568 点击 2026-01-30 10:39

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

时代变了，就连 Linus Torvalds 现在也氛围编程（Vibe Coding）了。

来自主题: AI资讯

10333 点击 2026-01-13 09:11

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

9942 点击 2026-01-06 16:46

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

继 SAM（Segment Anything Model）、SAM 3D 后，Meta 又有了新动作。

来自主题: AI技术研报

8837 点击 2025-12-18 16:54