依据 linear representation hypothesis表明神经网络将有意义的concept(称为feature特征 )表示为其激活空间中的方向**这一概念,我们利用SAE与缩放定律在LLM的激活空间中提取有意义(可解释的)的concept/features。

一旦 SAE 训练完成,它就会为我们提供一个模型激活的近似分解,将其分解为“特征方向”(SAE 解码器权重)的线性组合,其系数等于特征激活。

Some Backgrounds

Motivation

Methodology

Some Terminologies