AI资讯新闻榜单内容搜索-训练

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报

7847 点击 2026-05-26 10:07

一家「非主流」AI公司的豪赌：所有模态，一锅炖了 | 对话智象未来姚霆

多模态训练狠狠烧钱，世界模型公司也都在疯狂融资。

来自主题: AI资讯

9160 点击 2026-05-25 15:11

从「说错话」到「干错事」：复旦、CityUHK、SMU、UIUC等13家机构联合发布「具身智能安全」综述

具身智能（Embodied AI）正在快速从实验室走向真实世界。

来自主题: AI技术研报

9019 点击 2026-05-25 14:45

还在手写CUDA内核？CODA来了！LLM和新手也能让Transformer跑出光速

5 月 22 日，Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道：「经过一些数学重写，结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue（矩阵乘法加尾声）。给定一些优化的原语，LLM（以及新手）就可以为所有 Transformer 操作编写光速内核！」

来自主题: AI技术研报

9226 点击 2026-05-25 10:13

AI Agent 距离真正替人「全自动办公」，还有多远？

近日，Meta 曝光的一段内部录音显示：公司为了训练大模型，正通过监控工具监视员工在电脑上的鼠标和键盘操作。

来自主题: AI技术研报

10569 点击 2026-05-25 10:13

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

9096 点击 2026-05-25 09:49

前DeepMind华人研究员离职喊话：AI行业所有人都搞错了方向

前谷歌DeepMind研究员离职并发表长文指出AI行业当前最被低估的瓶颈。他认为，现有的基准测试和安全评估都隐含假设下一代模型只是当前模型的增强版，但如果模型跨入全新能力区间，整个评估基础设施将悄然崩溃。

来自主题: AI资讯

8488 点击 2026-05-25 09:47

RSS 2026｜机器人别等失败了才补救，AgentChord让恢复动作提前写进任务图

机器人操作正在从结构化工业场景走向更开放的真实环境。相比完成单个预设动作，真实任务往往包含更长的执行链条、更复杂的物体交互，以及更多不可控的外部扰动。一次抓取没有完全夹稳、目标物体被轻微碰偏、双臂交接时姿态出现偏差，都可能让后续步骤偏离原本计划。

来自主题: AI技术研报

8001 点击 2026-05-25 09:46

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

8876 点击 2026-05-24 10:20

Bengio新论文刷新递归推理上限，并行轨迹碾压串行推理

现在，图灵奖得主 Yoshua Bengio 给出了一份全新的并行方案。他们提出了 GRAM（Generative Recursive reAsoning Models，生成式递归推理模型），把确定性的递归潜在推理变成了概率性的多轨迹计算。模型在潜在空间中进行随机递归推理，每一步都可以采样不同的方向，最终形成对解空间的多路径探索。

来自主题: AI技术研报

10540 点击 2026-05-24 10:12