清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:
在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:
图片来源:David AI Labs David AI Labs 这家初创公司通过出售音频数据集来帮助训练人工智能模型,近期在新一轮融资中从投资者处筹集了 5000 万美元——这表明为 AI 开发提供
全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。
自带声音的视频生成模型,开源版开卷! 最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley。
打工人超超超实用利器来了!还在自己苦巴巴地做汇报,干巴巴地念PPT么? 谷歌NotebookLM最新功能,只需要输入数据、图表、旁白,就可以自动生成带AI音频的PPT,甚至不需要自己去讲。
据知情人士透露,Meta Platforms 已收购专注于人工智能情感识别与音频模拟的小型初创公司 WaveForms AI。
华强北推出低价AI眼镜,价格78-450元,截胡小米、Rokid等巨头产品。产品分为AI拍摄眼镜和AI音频眼镜,功能基础但销量火爆,月均数千台。厂商快速组装出货,靠价格优势和即买即得吸引消费者尝鲜,性能虽逊但性价比高。行业前景存疑,技术成熟需5年,海外市场更受欢迎。
随着 AI 系统越来越强大,人们与机器的交流方式也在发生变化。语音,正在迅速成为默认的交互入口。
AI不是万能解药 作为中国最大的在线音频平台,喜马拉雅又传出要 “ 卖身 ” 的消息了,据传腾讯音乐打算通过现金+股票的方式收购喜马拉雅。
首个专为ALLMs(音频大语言模型)设计的多维度可信度评估基准来了。