AI资讯新闻榜单内容搜索-ASR

AI语音从“输出”到“输入”，资本在用千万美元押注什么？

习以为常的语音输入功能，焕发第二春？

来自主题: AI资讯

10004 点击 2025-07-30 11:41

WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中

来自主题: AI资讯

8097 点击 2025-07-30 11:26

“边看边画，边画边想”，让大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。

来自主题: AI技术研报

8013 点击 2025-06-21 16:48

视觉+语音=更强的语音识别！BPO-AVASR通过优化音视频输入和输出偏好，提升语音识别在真实场景中的准确性，解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报

8838 点击 2025-03-24 16:01

在 LLM 落地场景中，医疗领域的应用开始展现出比较高的确定性，尤其是 AI scribe 产品能解决临床文档记录枯燥、耗时这一行业痛点。Abridge 是其中最有代表性的公司，训练了专用于临床文档的 ASR 和文本生成模型，能够替代 90% 左右的人工工作量。

来自主题: AI资讯

5316 点击 2025-01-04 15:54

8 月 21 日，2024 火山引擎 AI 创新巡展﹒上海站带来了豆包大模型最新进展。

来自主题: AI技术研报

14054 点击 2024-08-23 17:02

近日，小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。

来自主题: AI技术研报

6208 点击 2024-01-25 12:39