AI资讯新闻榜单内容搜索-TIM

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

8011 点击 2025-11-08 15:48

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

8536 点击 2025-11-06 14:59

我为马斯克扮演机器人！擎天柱背后竟是最贵「演员团」

擎天柱靓丽演示背后，是近百号员工每日8小时，疯狂重复固定动作，擦桌子、扮大猩猩等，他们正用体力「喂饱」擎天柱。

来自主题: AI资讯

11571 点击 2025-11-04 11:34

刚刚，智源悟界·Emu3.5重塑世界模型格局，原生具备世界建模能力

今天，北京智源人工智能研究院（BAAI）重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代，Emu3.5 被定义为一个 “多模态世界大模型”（Multimodal World Foudation Model）。

来自主题: AI资讯

10091 点击 2025-10-30 18:07

Efficiency Law, 物理精确世界模型，及世界模型引擎驱动的具身智能学习新范式

2025 年秋的具身智能赛道正被巨头动态点燃：特斯拉上海超级工厂宣布 Optimus 2.0 量产下线，同步开放开发者平台提供运动控制与环境感知 SDK，试图通过生态共建破解数据孤岛难题；英伟达则在 SIGGRAPH 大会抛出物理 AI 全栈方案，其 Omniverse 平台结合 Cosmos 世界模型可生成高质量合成数据，直指真机数据短缺痛点。

来自主题: AI技术研报

9948 点击 2025-10-27 17:05

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

7939 点击 2025-10-23 11:41

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7730 点击 2025-10-19 12:06

李飞飞全新「世界模型」问世！单张H100实时生成3D永恒世界

一张图，一个3D世界！今天，李飞飞团队重磅放出实时生成世界模型「RTFM」，通过端到端学习大规模视频数据，直接从输入2D图像生成同一场景下新视角的图像。值得一提的是，它仅需单块H100 GPU便能实时渲染出持久且3D一致的世界。

来自主题: AI资讯

10305 点击 2025-10-17 11:55

李飞飞发布全新世界模型，单GPU就能跑！

李飞飞的世界模型创业，最新成果来了！刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time Frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——单张H100 GPU就能跑。

来自主题: AI资讯

11725 点击 2025-10-17 09:08

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10707 点击 2025-10-16 12:31