AI资讯新闻榜单内容搜索-模型训练

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

从ChatGPT到DeepSeek，强化学习（Reinforcement Learning, RL）已成为大语言模型（LLM）后训练的关键一环。

来自主题: AI技术研报

6832 点击 2025-10-18 11:41

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞”

从5秒到4分钟，Sora2也做不到的分钟级长视频生成，字节做到了！这就是字节和UCLA联合提出的新方法——Self-Forcing++，无需更换模型架构或重新收集长视频数据集，就能轻松生成分钟级长视频，也不会后期画质突然变糊或卡住。

来自主题: AI技术研报

7040 点击 2025-10-18 11:36

小米最新大模型成果！罗福莉现身了

小米的最新大模型科研成果，对外曝光了。就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

来自主题: AI技术研报

7658 点击 2025-10-17 16:44

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

来自主题: AI资讯

6749 点击 2025-10-17 16:12

你是对的，AGI一年内不会出现了！学术界对AGI的定义来了，27家机构最新

通用人工智能AGI可能是人类历史上最重要的技术，但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样，人们对“什么才算 AGI”的门槛就跟着改，导致讨论经常流于口号，既不利于判断差距，更阻碍治理与工程规划、我们也很难看清当下 AI 距离 AGI 还有多远。

来自主题: AI资讯

6639 点击 2025-10-17 16:07

神经网络与符号系统大一统！华盛顿大学教授把AI逻辑统一成了张量表示

在通往AGI的道路上，人类欠缺的是一种合适的编程语言？华盛顿大学计算机学院教授Pedro Domingos在最新的独作论文中表示，当前AI领域使用的编程语言，无一例外全都存在缺陷。同时，Domingos还提出了一种新的统一语言，将AI逻辑统一成了张量表示。

来自主题: AI技术研报

7078 点击 2025-10-17 15:43

你的Agent可能在“错误进化”！上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化，我们距离AGI还有多远？从自动编写代码、做实验到扮演客服，能够通过与环境的持续互动，不断学习、总结经验、创造工具的“自进化智能体”（Self-evolving Agent）实力惊人。

来自主题: AI技术研报

6854 点击 2025-10-17 15:38

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报

7744 点击 2025-10-17 15:33

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

7321 点击 2025-10-17 09:48

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

近期，扩散语言模型备受瞩目，提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果，西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型（Remasking-enabled Diffusion Language Model, RemeDi 9B）。

来自主题: AI技术研报

5283 点击 2025-10-17 09:41