AI资讯新闻榜单内容搜索-训练

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

9147 点击 2026-05-16 13:34

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报

8216 点击 2026-05-16 10:50

阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD（On-Policy Self-Distillation），首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据，

来自主题: AI技术研报

9173 点击 2026-05-16 10:44

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事？

来自主题: AI技术研报

7625 点击 2026-05-15 10:36

很多事情，认知不够，就想当然地想得简单。

来自主题: AI资讯

10506 点击 2026-05-15 09:56

具身智能正以前所未有的速度发展，VLA 模型展现出越来越强的动作和泛化能力。然而，当我们真正把 VLA 模型部署到物理世界时，一个核心挑战浮出水面：实时性。

来自主题: AI技术研报

8978 点击 2026-05-15 09:55

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

6159 点击 2026-05-15 09:54

8个缔造AI辉煌的超级大脑，带着谷歌英伟达巨资狂暴入场。他们要让AI自己训练自己，然后把AI研究员这个职业彻底干掉。

来自主题: AI资讯

6700 点击 2026-05-14 16:03

2026 年，“世界模型” 正在成为具身智能行业的高频词。越来越多公司开始将自己的技术路线表述为机器人世界模型，试图用可学习的环境模型提升机器人训练效率。

来自主题: AI资讯

10719 点击 2026-05-14 16:02

在迈向通用人工智能（AGI）的过程中，世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力，被广泛认为是世界模型的首要前提。通常来说，一个成熟的世界模型需要具备三大核心能力：对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。

来自主题: AI技术研报

9327 点击 2026-05-14 15:03