Abstract
スパース自己符号化器(SAE)は、アラインメント検出やモデル・ステアリングを含む安全性に関わる用途でますます利用されるようになっています。これらのユースケースでは、SAEの潜在変数(latents)を可能な限り原子的(atomic)にする必要があります。各潜在変数は、単一の基盤となる表現(representational)部分空間から引き出された、単一の首尾一貫した概念を表すべきです。ところが実際には、SAEの潜在変数は複数の表現部分空間を混ぜ合わせてしまいます。単一の特徴は、真に共通の表現を持たない意味的に異なる文脈にまたがって活性化し得るため、すでに複雑なモデル計算の状況をさらに曇らせます。本稿では、この部分空間の混成を直接的に罰する共同学習目的(joint training objective)を導入します。主となるSAEと並行して小さなメタSAEを学習し、主SAEのデコーダ列(decoder columns)をメタ辞書(meta dictionary)からスパースに再構成できるようにします。主SAEは、そのデコーダ方向がメタ辞書から容易に再構成できてしまうたびに罰せられます。これは、潜在方向が他の主方向によって張られる部分空間に属する場合に生じます。これにより、スパースなメタ圧縮に対して抵抗する、より互いに独立なデコーダ方向へ向けた勾配圧力が生まれます。
GPT-2 large(layer 20)では、選択された構成は、同一データで学習した同等の単独SAEと比べて平均 |\varphi| を7.5%減少させます。自動化された解釈可能性(ファジング)スコアは7.6%改善し、学習指標や共起指標とは独立した「原子性の増加」を示す外部的な検証を提供します。再構成のオーバーヘッドは控えめです。Gemma 2 9Bでの結果は指向性(directional)的です。完全には収束していないSAEにおいても、同じパラメータ化は最良の結果を与え、+8.6\% の \DeltaFuzz です。方向性は示すものの、本手法がより大きなモデルへ転移可能であることを示唆する良い兆候です。定性的分析により、多意味(polysemantic)トークンで発火する特徴が、意味的に異なるサブ特徴へと分割され、それぞれが異なる表現部分空間に特化していることが確認できます。