AI资讯新闻榜单内容搜索-大模型安全

GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究，围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作，相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报

8356 点击 2026-06-02 11:23

ACL 2026 | 别轻易给AI发「～」，它可能会删掉你的整个主目录

本文第一作者降伟鹏，西安交通大学在读博士生，主要研究方向为大模型安全与自动化测评。共同第一作者张笑宇，南洋理工大学博士后研究员，研究方向为软件工程、大模型安全与人机交互。通讯作者沈超，西安交通大学二级

来自主题: AI技术研报

6181 点击 2026-04-27 09:55

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

近日， Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文，并得到了一些相当惊人的新发现。在这项研究中，他们挑战了当前大模型安全领域的一个核心假设。长期以来，业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法：

来自主题: AI技术研报

9899 点击 2026-03-02 10:12

第一梯队的大模型安全吗？复旦、上海创智学院等发布前沿大模型安全报告，覆盖六大领先模型

随着大语言模型加速迈向多模态与智能体形态，传统以单一维度为主的安全评估体系已难以覆盖真实世界中的复杂风险图景。在模型能力持续跃升的 2026 年，开发者与用户也愈发关注一个核心问题：前沿大模型的安全性，到底如何？

来自主题: AI技术研报

10590 点击 2026-01-26 10:20

250份文档就能给大模型植入后门：不分参数规模

大模型安全的bug居然这么好踩？？250份恶意文档就能给LLM搞小动作，不管模型大小，600M还是13B，中招率几乎没差。这是Claude母公司Anthropic最新的研究成果。

来自主题: AI技术研报

10615 点击 2025-10-11 12:04

管你模型多大，250份有毒文档统统放倒，Anthropic：迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所（UK AI Security Institute）和艾伦・图灵研究所（Alan Turing Institute）联合进行的一项研究彻底打破了这一传统观念：只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞，且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报

10297 点击 2025-10-10 12:14