
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。
来自主题: AI技术研报
5795 点击 2025-04-19 15:29
推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。
简而言之:矩阵 → ReLU 激活 → 矩阵