Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。
来自主题: AI技术研报
8354 点击 2026-05-08 14:33