スパース自動エンコーダーのペアワイズ行列:単一特徴量の検査が因果軸を誤ラベルする
arXiv cs.LG / 2026/5/6
📰 ニュースModels & Research
要点
- 本論文は、スパース自動エンコーダー(SAE)の解釈可能性に「ペアワイズ行列プロトコル」を提案し、単一特徴量のワンコーナー検査よりも因果軸を正しく特定するために、ステアリング係数と同時条件を共変化させる。
- Qwen3-1.7B-Instructでの評価とGemma-2-2B-itでの再現により、トップ活性化コンテキストから推定された特徴が、単一特徴量のステアリングでは誤って解釈されうることを示し、「AI self-disclaimer」特徴が係数掃引の高い値で注意深い哲学者のような応答へ反転する例を提示する。
- 近接直交するクラスタ特異的特徴のうち、意味のある悪影響には「複合(joint)抑制」が必要な場合があることを報告し、各特徴を単独で抑制しても制御が保たれている一方で、共同抑制ではレシピやエンジン説明、内省プロンプトでの地に足のついた構成が損なわれる。
- 形状(幾何)をそろえた比較(単一特徴 vs 複合 vs ランダム方向)により、出力の振る舞いが「方向パターン」に依存し、単なる摂動の大きさだけではコヒーレンス喪失が決まらないことを明らかにし、複合抑制がプレースホルダのようなテキストを独自に生むことを示す。
- このパイプラインはLlama-3.1-8B-Instructでも因果的に責任の高いトップ特徴を特定し、初期のモデル群以外にも有用であること、そして既存の検証手続きの限界を強調する。



