AI资讯新闻榜单内容搜索-Audio

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Audio
模思智能完成亿元融资,上海国投、IDG、华为等联合投资

模思智能完成亿元融资,上海国投、IDG、华为等联合投资

模思智能完成亿元融资,上海国投、IDG、华为等联合投资

模思智能成立于2024年,位于上海徐汇区,由上海创智学院与复旦大学联合孵化,是国内少数完成“全模态基座模型能力闭环”的初创公司之一,致力于构建统一Token表达框架下的“情境智能”能力,推动Agent系统在真实世界中的自主交互与任务执行。

来自主题: AI资讯
9673 点击    2026-04-11 14:28
小米AI语音新框架:人人都能当声音导演

小米AI语音新框架:人人都能当声音导演

小米AI语音新框架:人人都能当声音导演

语音合成大家都不陌生,这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报
9975 点击    2026-04-08 16:58
全球首个射频大模型发布,6G网络的认知大脑有了雏形

全球首个射频大模型发布,6G网络的认知大脑有了雏形

全球首个射频大模型发布,6G网络的认知大脑有了雏形

2026 年,阿联酋哈利法大学的邹航博士和他所在的团队,做出了全世界第一个射频大模型,名字叫 RF GPT。这个模型能直接看懂无线信号,就像 GPT 4o 能看懂图片、Qwen2 Audio 能听懂声音一样。你把无线信号扔给它,它不仅能告诉你这里面有几种信号、分别是什么技术,还能分析出有没有信号在打架、哪个是 5G 哪个是蓝牙、甚至能数出来 WiFi 网络里有多少个用户同时在用。

来自主题: AI资讯
8585 点击    2026-04-05 11:08
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚,美团LongCat团队发布了文本转语音模型LongCat-AudioDiT,并开源1B、3.5B参数量的版本。这一模型的最大特点,是彻底抛弃了梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说,这一模型直接根据声音本身的规律进行生成,“雕刻”出最原始的声音波形,从根源阻断数据转换的级联误差。

来自主题: AI资讯
8394 点击    2026-04-02 13:51
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报
7421 点击    2026-03-09 14:29
小红书,再造一个更有「声」命力的社区

小红书,再造一个更有「声」命力的社区

小红书,再造一个更有「声」命力的社区

2026 马年注定迎来一个「AI 味」最浓的春节。

来自主题: AI技术研报
9274 点击    2026-02-12 15:34
刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断

今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio)。

来自主题: AI技术研报
8568 点击    2026-01-30 10:39
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线

真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线

真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线

时代变了,就连 Linus Torvalds 现在也氛围编程(Vibe Coding)了。

来自主题: AI资讯
10333 点击    2026-01-13 09:11
真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报
9942 点击    2026-01-06 16:46