AI资讯新闻榜单内容搜索-SOTA

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景，在架构上引入Multi-Token Prediction（多Token预测）以提升推理效率，并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯

9751 点击 2026-04-25 10:22

CVPR 2026 | 告别倾听「扑克脸」，UniLS框架来了，刷新数字人对话SOTA

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中，倾听时的 “扑克脸” 问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步，但倾听时却表情僵硬、毫无反应，严重影响对话的自然感和沉浸感。盛大 AI 研究院（东京）与东京大学联合提出 UniLS（Unified Listening and Speaking），首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

来自主题: AI技术研报

9880 点击 2026-04-24 09:15

神秘模型「大象」：仅100B拿下SOTA，Token效率超高！

神秘模型Elephant的面纱，终于被揭开了。

来自主题: AI技术研报

5634 点击 2026-04-22 10:02

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token | 浙大&上海AI Lab

这个生物医学视觉推理框架，被CVPR 2026接收了！

来自主题: AI技术研报

6721 点击 2026-04-22 09:11

全球第一，13个SOTA！我们找到了龙虾界掌管GUI的神

有没有想过让「龙虾」替你打麻将？

来自主题: AI技术研报

7000 点击 2026-04-13 15:02

ICRA 2026｜NUS邵林团队提出T(R,O) Grasp：刷新跨智能体灵巧抓取SOTA，实现5FPS动态环境交互

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构，具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上，该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量，并在多种智能体上取得 94.83% 的平均抓取成功率，刷新了跨智能体灵巧抓取的 SOTA，具备与动态场景实时交互的能力。

来自主题: AI技术研报

6731 点击 2026-04-13 09:38