マスク付き正則化による疎オートエンコーダのロバスト性向上

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、疎オートエンコーダ(SAE)が脆く、特徴の吸収(feature absorption)が起こりやすいため、再構成品質が高い場合でも解釈可能性が劣化し得ると主張している。
  • さらに、SAEは分布外(OOD)条件下でもより広範に失敗し得るという証拠を示しており、既存の学習目的がロバスト性について十分に特定されていないことを示唆している。
  • 著者らは、学習中にトークンをランダムに置換するマスキングベースの正則化を提案し、有害な共起パターンを断ち切る。
  • 実験により、異なるSAEアーキテクチャや疎度設定においてロバスト性が改善し、吸収が低減され、プロービング性能が向上することが示されている。
  • この手法はSAEのOOD性能のギャップを縮小し、より信頼性の高いメカニズム解釈ツール群へ向けた実用的な道筋を支持する。

要旨: スパース・オートエンコーダ(SAE)は、機械論的解釈可能性において、LLMの活性化を疎な潜在空間へ射影するために広く用いられています。しかし、疎性それ自体は解釈可能性の不完全な代理指標であり、現在の学習目的はしばしば脆い潜在表現をもたらします。SAEは、特徴吸収(feature absorption)に陥りやすいことが知られています。これは、共起により一般的な特徴がより特定的な特徴に包含されてしまい、再構成の忠実度が高くても解釈可能性が低下する現象です。分布外(Out-of-Distribution: OOD)性能に関する最近の負の結果は、さらに、過不足のある学習目的に結びついた、より広範な頑健性関連の失敗を強調しています。我々はこれに対処するために、学習中にトークンをランダムに置換するマスキングに基づく正則化を提案します。これにより、共起パターンを破壊し、SAEのアーキテクチャと疎性の水準をまたいで頑健性が向上し、特徴吸収が低減され、プロービング性能が改善され、OODギャップが縮小します。本研究の結果は、より信頼性の高い解釈可能性ツールへ向けた実用的な道筋を示しています。