AI资讯新闻榜单内容搜索-模型训练

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

9149 点击 2025-10-22 11:33

豆包是如何炼成的？字节放出自研万卡训练系统ByteRobust论文

近日，字节跳动一篇论文介绍了他们 LLM 训练基础设施 ByteRobust，引发广泛关注。现在，在训练基础设施层面上，我们终于知道字节跳动会如何稳健地训练豆包了。

来自主题: AI技术研报

9633 点击 2025-10-22 09:51

喂了几个月的垃圾推文，大模型得了「脑腐」，这病还治不好

天天刷推，大模型的脑子也会坏掉。终于有研究证明，互联网上的烂内容会让大模型得「脑腐」。相信许多读者对「脑腐」这个词并不陌生，长时间沉浸在碎片化的网络信息中，我们经常会感到注意力下降、思维变钝。

来自主题: AI技术研报

6720 点击 2025-10-21 16:18

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

今年，流匹配无疑是机器人学习领域的大热门：作为扩散模型的一种优雅的变体，流匹配凭借简单、好用的特点，成为了机器人底层操作策略的主流手段，并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的，LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。

来自主题: AI技术研报

8824 点击 2025-10-21 16:10

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

7410 点击 2025-10-21 15:53

突破FHE瓶颈，Lancelot架构实现加密状态下的鲁棒聚合计算，兼顾「隐私保护」与「鲁棒性」

在金融、医疗等高度敏感的应用场景中，拜占庭鲁棒联邦学习（BRFL）能够有效避免因数据集中存储而导致的隐私泄露风险，同时防止恶意客户端对模型训练的攻击。然而，即使是在模型更新的过程中，信息泄露的威胁仍然无法完全规避。为了解决这一问题，全同态加密（FHE）技术通过在密文状态下进行安全计算，展现出保护隐私信息的巨大潜力。

来自主题: AI技术研报

8379 点击 2025-10-21 15:44