AI资讯新闻榜单内容搜索-模型训练

仅保留35% Token，性能反超原模型！快手可灵等用视觉信息引导音频压缩，推理时间直降42%

一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。

来自主题: AI技术研报

8682 点击 2026-03-11 15:06

视频生成太慢？英伟达、谢赛宁等发布TMD框架，实现70倍加速

近年来，大规模视频扩散模型在视频生成领域取得了显著进展。然而，采样效率低下仍然是这类模型的核心瓶颈。

来自主题: AI技术研报

9390 点击 2026-03-11 15:05

物理AI的「原生」时刻：原力灵机发布具身大模型DM0

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

6371 点击 2026-03-11 15:04

不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

对比学习已成为表征学习中的一种强大范式，能够在不依赖标签的情况下有效利用无标注数据。

来自主题: AI技术研报

7576 点击 2026-03-11 15:03

扩散模型终于学会「看题下菜碟」！根据提示词难度动态分配算力，简单题省时复杂题保画质

扩散模型终于学会“看题下菜碟”了！

来自主题: AI技术研报

8432 点击 2026-03-11 09:24

可微奖励就该直接微调！用HJB方程颠覆流匹配对齐｜NeurIPS'25

用强化学习微调扩散模型，还有更好的办法吗？

来自主题: AI技术研报

7985 点击 2026-03-11 09:23

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

7077 点击 2026-03-11 09:22