AI资讯新闻榜单内容搜索-端到端语音

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯

8738 点击 2025-09-21 19:22

智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。

来自主题: AI技术研报

8696 点击 2025-09-16 11:23

只需要动动嘴就可以驱动GUI代理？

来自主题: AI技术研报

8117 点击 2025-06-19 17:07

没想到，文小言接入推理模型的大更新背后，百度还藏了一手“质变”级技术大招？？？

来自主题: AI技术研报

8510 点击 2025-04-03 09:55

实现智能、类似人类的端到端语音聊天。

来自主题: AI技术研报

7468 点击 2024-12-11 16:03

两个多月前那个对标GPT-4o的端到端语音模型，终于开源了。大神Karpathy体验之后表示：nice！

来自主题: AI技术研报

6695 点击 2024-09-24 12:07

本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报

9063 点击 2024-09-07 11:04