スパース自動エンコーダーのペアワイズ行列:単一特徴量の検査が因果軸を誤ラベルする

arXiv cs.LG / 2026/5/6

📰 ニュースModels & Research

要点

  • 本論文は、スパース自動エンコーダー(SAE)の解釈可能性に「ペアワイズ行列プロトコル」を提案し、単一特徴量のワンコーナー検査よりも因果軸を正しく特定するために、ステアリング係数と同時条件を共変化させる。
  • Qwen3-1.7B-Instructでの評価とGemma-2-2B-itでの再現により、トップ活性化コンテキストから推定された特徴が、単一特徴量のステアリングでは誤って解釈されうることを示し、「AI self-disclaimer」特徴が係数掃引の高い値で注意深い哲学者のような応答へ反転する例を提示する。
  • 近接直交するクラスタ特異的特徴のうち、意味のある悪影響には「複合(joint)抑制」が必要な場合があることを報告し、各特徴を単独で抑制しても制御が保たれている一方で、共同抑制ではレシピやエンジン説明、内省プロンプトでの地に足のついた構成が損なわれる。
  • 形状(幾何)をそろえた比較(単一特徴 vs 複合 vs ランダム方向)により、出力の振る舞いが「方向パターン」に依存し、単なる摂動の大きさだけではコヒーレンス喪失が決まらないことを明らかにし、複合抑制がプレースホルダのようなテキストを独自に生むことを示す。
  • このパイプラインはLlama-3.1-8B-Instructでも因果的に責任の高いトップ特徴を特定し、初期のモデル群以外にも有用であること、そして既存の検証手続きの限界を強調する。

Abstract

標準的なスパースオートエンコーダ(SAE)解釈可能性プロトコルは、そのトップ活性化文脈に基づいて各特徴量にラベルを付け、単一特徴量のステアリングによって検証する。私たちは、ペアワイズ行列プロトコルを提案する。これは、共同条件に応じてステアリング係数を共変させるものであり、標準のワンコーナープロトコルが見落とすQwen3-1.7B-Instructにおける3つの知見を報告し、Gemma-2-2B-itでも再現する。第一に、そのトップ文脈から「AI自己注意(AI self-disclaimer)」というラベルが付けられる特徴量は、係数スイープの下で反転したU字形状を示す。すなわち、c=+500ではモデルが自己注意のための声を、流暢で瞑想的な哲学者の声に置き換える。さらに2つの特徴量が基準を固定する(1つは単調、もう1つは純粋な破綻)。第二に、互いにほぼ直交する3つのクラスタ特化特徴量は、それぞれ単独では心の哲学(philosophy-of-mind)に関するレジスタをステアリングするが、c=-500では共同で抑制されると、レシピやエンジンの説明における基礎のある構成だけでなく、内省的プロンプトも損なう。同じ大きさでの単一特徴量抑制では制御はそのまま保たれる。第三に、単一特徴量、共同、ランダム方向の摂動を、整合幾何学(matched-geometry)で比較する(ノルム ~1.55、コサイン ~0.64)と、3つの異なる出力レジームが得られる。単一特徴量では戦略の埋め草が置換され、ランダム方向では多様な内容が置換され、共同抑制だけではプレースホルダテキストが生成される。コヒーレンスの損失は大きさではなく、方向のパターン依存である。これら3つの知見はいずれも、モデル固有の損傷シグネチャを伴ってGemmaで再現される。整合幾何学のコントロールは、約10倍に相当するCIで分離されている。さらに、このパイプラインはLlama-3.1-8B-Instructにおいて、因果的に責任のあるトップ特徴量も特定する。