AI资讯新闻榜单内容搜索-Anthropic审

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Anthropic审

700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为，还被训练成「不许认账」的模型，IA辅助审计智能体拿下全场最高的59%成功率；更夸张的是，56个「嘴硬」模型里，有50个至少被它撬开过一次嘴。AI安全审计的游戏规则，悄悄变了。

来自主题: AI资讯

8050 点击 2026-05-05 13:49