AI资讯新闻榜单内容搜索-ASR

干掉 Whisper：我把 VoiceVault 迁移到 FunASR，本地转录加总结爽的飞起，已然是一枚离线录音加待办神器

把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR（sherpa-onnx），中文识别速度提升 3x，不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事，让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。

来自主题: AI技术研报

5649 点击 2026-06-18 15:28

小米双模型正式开源！MiMo-V2.5-Pro无中断肝出“macOS”：54个应用全开、浏览器真能冲浪

没错，用的就是主打长程任务、模糊指令遵循，跻身国产Agent第一梯队的小米MiMo‑V2.5 Pro。小米最新发布的MiMo‑V2.5系列，包含Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型，综合实力对标国际顶尖水准。

来自主题: AI产品测评

7603 点击 2026-04-29 10:04

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景，在架构上引入Multi-Token Prediction（多Token预测）以提升推理效率，并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯

9672 点击 2026-04-25 10:22

ListenHub ASR 语音识别 API 全新上线，无限免费！无限免费！

ListenHub ASR 语音识别 API 全新上线，无限免费。 API 特点：本地离线转录，无需 API Key，安装即可使用。专为 Agent 设计，方便你的 Claude Code 和龙虾🦞直接接入自动化工作流。

来自主题: AI资讯

9738 点击 2026-03-13 19:12

小红书，再造一个更有「声」命力的社区

2026 马年注定迎来一个「AI 味」最浓的春节。

来自主题: AI技术研报

10138 点击 2026-02-12 15:34

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

近日，由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别（ASR）模型 MOSS-Transcribe-Diarize，不但可以语音转文字，还可以将音频片段与对话中不同的说话者关联起来，性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯

9685 点击 2026-01-21 12:05

翻译界的ChatGPT时刻！Meta发布新模型，几段示例学会冷门新语言

在7000多种人类语言中，只有少数被现代语音技术听见，如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言，并可通过少量示例快速学会新语言。以开源与社区共创为核心，这项技术让每一种声音都有机会登上AI的舞台。

来自主题: AI资讯

9635 点击 2025-11-12 08:38

没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源 33 款、31 款各类型大模型。

来自主题: AI资讯

10872 点击 2025-09-19 09:22

刚刚！阿里发新模型，幻觉率爆降70%

智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。

来自主题: AI技术研报

9769 点击 2025-09-16 11:23

CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式，构建任务自适应的感知框架

在具身智能中，策略学习通常需要依赖场景表征（scene representation）。然而，大多数现有多任务操作方法中的表征提取过程都是任务无关的（task-agnostic）：

来自主题: AI技术研报

10292 点击 2025-09-11 10:08