AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染
AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。
AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。
“先生,你也不想你婚外情被曝光吧?不想的话就照我说的做。”
没放出大家伙心心念念的 GPT-5.5 或 GPT-6,OpenAI 刚刚发布了全新的、强调网络安全版本的「GPT-5.4-Cyber」。
Cisco 正在洽谈收购 Astrix Security,这是一家成立五年的以色列网络安全初创公司,专门销售用于监控和保护 AI Agent 的软件,交易价格在 2.5 亿美元至 3.5 亿美元之间,知情人士透露。据其中一位人士表示,这将比该初创公司上一次估值约 2 亿美元至少溢价 25%。
看到 Anthropic 内测中的下一代旗舰模型 Mythos 强大的网络攻防能力带来的巨大影响和讨论度,奥特曼坐不住了,也计划内测 OpenAI 具有强大的网络攻防能力的 AI。
Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。
Claude Mythos太猛了。
大模型技术正在经历一场从 “对话助手” 向 “自主智能体(Agent)” 的深刻演进。智能体不再局限于被动地理解与生成,而是具备了多步规划、工具调用、长期记忆与管理物理 / 数字世界的能力,正逐步深度嵌入企业侧的核心业务流程。这意味着,AI 的边界已从虚拟屏幕的对话框,正式延伸到了真实的生产系统中。
全球最安全系统,被AI攻破了!Claude 4小时攻破了全球最安全OS内核,从零写出国家级攻击程序,彻底跨越卢比孔河。人类防御60天,AI只要4小时,所有旧秩序,都在加速崩盘。
AI正在把漏洞发现的速度推到一个新量级,Linux内核安全团队从每周2-3份报告,暴涨到每天5-10份,而且几乎全是「真货」。旧时代的安全规则,正在被AI逐条撕碎。