AI资讯新闻榜单内容搜索-语音识别

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

近日，由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别（ASR）模型 MOSS-Transcribe-Diarize，不但可以语音转文字，还可以将音频片段与对话中不同的说话者关联起来，性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯

8472 点击 2026-01-21 12:05

翻译界的ChatGPT时刻！Meta发布新模型，几段示例学会冷门新语言

在7000多种人类语言中，只有少数被现代语音技术听见，如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言，并可通过少量示例快速学会新语言。以开源与社区共创为核心，这项技术让每一种声音都有机会登上AI的舞台。

来自主题: AI资讯

8697 点击 2025-11-12 08:38

重磅发布！国家队出手解决企业跨省通信「老大难」，语音识别错误率暴降20%

还在忍受方言听不懂、跨省业务推进难？联通直接放出「云+AI」大招，把这些通信顽疾一锅端！本文为你揭秘，运营商如何用科技智慧破局，打开信息「黑匣子」，让效率飙升！

来自主题: AI资讯

7732 点击 2025-10-31 15:30

刚刚！阿里发新模型，幻觉率爆降70%

智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。

来自主题: AI技术研报

8822 点击 2025-09-16 11:23

AI听懂的，究竟是动物的语言，还是人类的想象？

如果说眼睛是心灵之窗，那么语言或许就是通往心灵的门户。

来自主题: AI技术研报

7666 点击 2025-06-27 10:47

做语音识别现在还能融3000万美金？海外顶级VC押注AI-Native的语音交互，下一个操作系统级的机会！

你有没有想过，我们每天敲击键盘的这个动作，可能很快就会变成历史？150 年前发明的键盘，竟然仍然是我们与计算机交流的主要方式。

来自主题: AI资讯

7548 点击 2025-06-27 10:36

13年死磕一个真理，这家中国AI黑马冲刺IPO

地铁站，老人方言购票秒出；医院里，医生病历书写时间压缩至1h。这家深耕AI的先锋长跑13年，如今即将叩响港交所大门。这条路没有捷径，只是把「人的需求」作为终点，或许这才是AI最本真的温度。

来自主题: AI资讯

8070 点击 2025-06-16 17:03

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别！BPO-AVASR通过优化音视频输入和输出偏好，提升语音识别在真实场景中的准确性，解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报

8010 点击 2025-03-24 16:01

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队，专注于开源语音基础引擎研发，从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路，旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报

7446 点击 2025-02-07 16:02

小米语音首席科学家 Daniel Povey：语音识别卷完了，下一个机会在哪里？

本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物，他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前，他在微软研究院的实习生，如今已成为 Google Gemini 等标志性项目的负责人。

来自主题: AI资讯

8272 点击 2025-01-19 15:02