AI资讯新闻榜单内容搜索-语音识别

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音识别
13年死磕一个真理,这家中国AI黑马冲刺IPO

13年死磕一个真理,这家中国AI黑马冲刺IPO

13年死磕一个真理,这家中国AI黑马冲刺IPO

地铁站,老人方言购票秒出;医院里,医生病历书写时间压缩至1h。这家深耕AI的先锋长跑13年,如今即将叩响港交所大门。这条路没有捷径,只是把「人的需求」作为终点,或许这才是AI最本真的温度。

来自主题: AI资讯
6185 点击    2025-06-16 17:03
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6272 点击    2025-03-24 16:01
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报
5745 点击    2025-02-07 16:02
小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?

小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?

小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?

本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。

来自主题: AI资讯
6777 点击    2025-01-19 15:02
沾AI价格暴涨十倍,玩具圈想再造一个泡泡玛特

沾AI价格暴涨十倍,玩具圈想再造一个泡泡玛特

沾AI价格暴涨十倍,玩具圈想再造一个泡泡玛特

在社交平台分享“显眼包”的帖子中,频繁出现“出吗”、“高价收”类似的评论。“显眼包”是字节此前给客户送出去的玩具,区别传统玩具,这是一款内嵌了豆包大模型、扣子专业版、语音识别、语音合成等技术的AI玩具。

来自主题: AI资讯
6525 点击    2024-12-21 11:47
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
8416 点击    2024-11-27 16:50
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

来自主题: AI技术研报
5989 点击    2024-10-15 19:22
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流

炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流

炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流

很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~

来自主题: AI资讯
8456 点击    2024-06-28 23:45
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral

近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。

来自主题: AI技术研报
3594 点击    2024-01-25 12:39