AI资讯新闻榜单内容搜索-模型训练

当SFT遇上RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报

7458 点击 2026-05-18 09:53

近日，Meta AI 与香港中文大学颠覆性提出了一种全新的视觉推理范式 ATLAS，不用外部工具，不显式生成中间图像，没有视觉监督信号，只用一个离散 word，首次颠覆性地代替 Agentic 和 Latent Visual Reasoning。

来自主题: AI技术研报

8126 点击 2026-05-17 15:07

近期，专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的Templates来精准控制模型的生成结果。

来自主题: AI技术研报

9112 点击 2026-05-17 11:14

针对这一问题，上海人工智能实验室、复旦大学、上海交通大学团队提出了Thoth：一个面向生物实验protocol生成的科学推理模型。一句话概括：Thoth不是让模型“写得像protocol”，而是让模型按照实验逻辑，生成可解析、可评估、可执行的protocol。

来自主题: AI技术研报

8450 点击 2026-05-17 10:52

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

9084 点击 2026-05-16 13:34

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报

8183 点击 2026-05-16 10:50

阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD（On-Policy Self-Distillation），首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据，

来自主题: AI技术研报

9130 点击 2026-05-16 10:44

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事？

来自主题: AI技术研报

7586 点击 2026-05-15 10:36

很多事情，认知不够，就想当然地想得简单。

来自主题: AI资讯

10489 点击 2026-05-15 09:56

具身智能正以前所未有的速度发展，VLA 模型展现出越来越强的动作和泛化能力。然而，当我们真正把 VLA 模型部署到物理世界时，一个核心挑战浮出水面：实时性。

来自主题: AI技术研报

8867 点击 2026-05-15 09:55