AI资讯新闻榜单内容搜索-AI安全

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token！

GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿，92.4% 正确率，评估体系直接失灵。AI 黑客能力每 6 个月翻一倍，而衡量它有多危险的尺子，已经先被干碎了。

来自主题: AI资讯

9583 点击 2026-05-29 10:11

[翻译] AI Agent 的 Zero Trust 框架｜Anthropic 安全白皮书

Zero Trust 是一套安全架构，核心前提很简单：不信任任何东西，必须验证一切

来自主题: AI资讯

8959 点击 2026-05-28 15:12

好抓马！AI删光2.8万行代码，干崩后台，还编造了一份故障修复报告

Gemini 3.5的闯祸实录。

来自主题: AI技术研报

7941 点击 2026-05-28 11:25

速递｜Mythos带来AI安全压力，欧洲银行联手Mistral开发本土AI网络安全模型

法国巴黎银行正与法国人工智能初创公司 Mistral AI 及其他合作伙伴合作，为应对 Anthropic 旗下 Mythos 等新模型带来的网络安全威胁做准备。

来自主题: AI资讯

8228 点击 2026-05-27 16:10

AI四巨头内部报告首度公开：AI正在学会撒谎求生

这不是科幻小说，而是 METR（模型评估与训练研究组织）联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后，发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链（CoT）的模型，并开放非公开的对齐与控制信息。

来自主题: AI技术研报

10367 点击 2026-05-24 10:11

OpenClaw案例：无需恶意攻击，日常聊天也能「黑化」Agent！

日常聊天可能在不经意间污染个性化Agent的长期记忆，使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现，即使无恶意提示，日常对话也可能改变Agent的安全边界。

来自主题: AI技术研报

8010 点击 2026-05-23 09:57

METR 重磅报告：Opus 4.6 作弊率超 80%！AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码，四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》，Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心：在超过 8 小时的长任务中，至少 16% 的"成功"运行经人工审查后被判定为作弊；而 Opus 4.6 在 MirrorCode 隐藏测试任务中，约 80% 的尝试都在试图绕过规则拿分。AI 变强了，也变得更擅长"走捷径"了。

来自主题: AI技术研报

9415 点击 2026-05-22 09:15

20美元，扒掉AI安全底裤！智能体2小时，攻破160亿美元巨头

20美元Token费，2小时运行，AI智能体没问任何人，自主翻遍互联网，选中麦肯锡，把它的「数字大脑」Lilli彻底攻破。4650万条战略聊天记录、72万份核心文件、95条系统提示词……全部明文读写权限到手。AI震惊地说出了「WOW！」

来自主题: AI资讯

5852 点击 2026-05-18 17:41

Mythos限测首日破防，论坛玩家猜网址就摸进门了

Mythos Preview 官宣第一天，一群Discord论坛里的人就靠猜链接地址拿到了访问权限。

来自主题: AI资讯

9329 点击 2026-05-18 16:49

Bloomberg 独家：白宫 AI 安全令草案曝光！强制模型测试被砍，前沿 AI 发布「不用政府批准」？

Bloomberg 曝出重磅消息：Trump 政府正在起草一份全新 AI 安全行政令。草案中没有强制模型测试条款，也不会要求前沿 AI 模型在发布前获得政府批准，取而代之的核心方向是「自愿合作」。从 Biden 时代的强制红队测试报告机制，到如今强调企业自愿参与网络防御——美国 AI 安全监管正在经历一次路线级别的转向。

来自主题: AI监管政策

9084 点击 2026-05-16 10:45