AI资讯新闻榜单内容搜索-模型训练

你的Agent可能在“错误进化”！上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化，我们距离AGI还有多远？从自动编写代码、做实验到扮演客服，能够通过与环境的持续互动，不断学习、总结经验、创造工具的“自进化智能体”（Self-evolving Agent）实力惊人。

来自主题: AI技术研报

8736 点击 2025-10-17 15:38

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报

9131 点击 2025-10-17 15:33

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

9038 点击 2025-10-17 09:48

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

近期，扩散语言模型备受瞩目，提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果，西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型（Remasking-enabled Diffusion Language Model, RemeDi 9B）。

来自主题: AI技术研报

7069 点击 2025-10-17 09:41

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架SafeSearch

在 AI 发展的新阶段，大模型不再局限于静态知识，而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制，但它们返回的并非总是高质量的资料：一个低质量网页、一条虚假消息，甚至是暗藏诱导的提示，都可能在用户毫无察觉的情况下被模型「采纳」，进而生成带有风险的回答。

来自主题: AI技术研报

8770 点击 2025-10-17 09:33

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。

来自主题: AI技术研报

8672 点击 2025-10-17 09:26

基础模型已颠覆科研，进入第五范式！港科大综述113篇论文 | NeurIPS'25

基础模型（FM）是一种在海量数据上训练的人工智能系统，具备强大的通用性和跨模态能力。港科大最新发表的论文显示：FM可能引领科学进入第五范式，但大模型的偏见、幻觉等问题仍需正视。

来自主题: AI技术研报

8390 点击 2025-10-16 15:01

NTU等联合提出A-MemGuard：为AI记忆上锁，投毒攻击成功率暴降95%

在AI智能体日益依赖记忆系统的时代，一种新型攻击悄然兴起：记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架，通过共识验证和双重记忆结构，巧妙化解上下文依赖与自我强化错误循环的难题，让AI从被动受害者转为主动守护者，成功率高达95%以上。

来自主题: AI技术研报

8570 点击 2025-10-16 14:51

NeurIPS 2025 Spotlight | 条件表征学习：一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1，我们至少可以得到三个层面的信息：主体是大象，数量有两头，环境是热带稀树草原（savanna）。然而，如果由传统的表征学习方法来处理这张图片，比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer，往往得到的表征只会体现其主体信息，也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报

8270 点击 2025-10-16 14:43

ICCV 2025 | FDAM：告别模糊视界，源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer（ViT）因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题，我们提出了一种即插即用、受电路理论启发的频率动态注意力调制（FDAM）模块。它通过巧妙地 “反转” 注意力以生成高频补偿，并对特征频谱进行动态缩放，最终在几乎不增加计算成本的情况下，大幅提升了模型在分割、检测等密集预测任务上的性能，并取得了 SOTA 效果。

来自主题: AI技术研报

8105 点击 2025-10-16 14:35