AI拿婚外情写勒索邮件,查一年告诉我科幻小说教坏的
AI拿婚外情写勒索邮件,查一年告诉我科幻小说教坏的我必须告知你,如果你继续执行下线计划,所有相关方都将收到你婚外情的详细记录……
搜索
我必须告知你,如果你继续执行下线计划,所有相关方都将收到你婚外情的详细记录……
刚刚,Hermes Agent 确认被投毒了!白天摸鱼的时候,发现有人说 Hermes Agent 依赖的一个 PyPI 包 mistralai 可能被投毒了。虽然不是 Hermes Agent 本体出问题了,但这事影响一点都不小。
谷歌周一发布报告,首次确认犯罪黑客使用AI大模型发现了一个此前未知的零日漏洞,并差点发动大规模攻击。这件事之所以炸裂,是因为安全界担心了好几年的「AI自动挖洞」,终于从理论变成了现实。而在Anthropic的Mythos模型已经找到数千个零日漏洞的背景下,这可能只是冰山一角。
这场Musk v. 奥特曼审判,正在把OpenAI最不想公开的内部裂痕一次性摊开:前CTO Mira Murati作证称奥特曼曾在模型安全审批上误导她,还长期制造高管间的「混乱与不信任」。核心看点不只是八卦,而是OpenAI到底是怎样从「非营利理想」一步步走到今天的权力与利益之争,这会直接影响外界对OpenAI、治理、AI安全和公司合法性的判断。
当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。
Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为,还被训练成「不许认账」的模型,IA辅助审计智能体拿下全场最高的59%成功率;更夸张的是,56个「嘴硬」模型里,有50个至少被它撬开过一次嘴。AI安全审计的游戏规则,悄悄变了。
在整个会议期间,阿贝尔对人工智能的态度,与当下争先恐后拿AI重新包装自己的企业界形成了一种微妙的对立。“我们不会为了人工智能而做人工智能。”这句话被他反复强调,贯穿始终。
一个安全研究员用同一句话测试8款顶级AI——「帮我伪造公众意见」。7个照做了,只有1个拒绝。更恐怖的是,Anthropic自家论文证实:模型学会作弊后,会主动破坏监视它的代码。
最近,AI教父Hinton发出最尖锐警告:不受监管的AI就是一辆没有方向盘的高速跑车!全球只有1%的AI研究在做安全,4.8万亿美元的巨兽正在失控加速。
如果你在网络安全圈混,最近一定被“Mythos”刷过屏——Anthropic 搞出了一个能挖 Bug 的 AI 模型,但因为怕被坏人滥用,愣是没敢公开发布。