線形セントロイド仮説:深いネットワークの特徴がデータを表現する仕組み

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、潜在活性だけに依存するのではなく、入力空間のセントロイドの線形方向によって特徴を特徴づけることで、線形表現仮説(Linear Representation Hypothesis: LRH)よりも解釈可能性を高める「線形セントロイド仮説(Linear Centroids Hypothesis: LCH)」を提案する。
  • LCHでは、セントロイドを深いネットワークの局所的な機能的振る舞いをベクトルとして要約したものとして定義し、LRHの限界(ニューロン/層の成分を無視することや、紛らわしい特徴(スパリアス特徴)に弱いこと)を回避することを目指す。
  • 著者らは、セントロイドに対して疎な特徴学習(sparse feature learning)を行うことで、LCHに基づく解釈可能性が既存のLRHツール(例:疎な自己符号化器)を再利用できることを示す。
  • 実験では、DINOの視覚トランスフォーマーにおいて、セントロイドを用いるとより疎な特徴辞書が得られるだけでなく、下流タスクの性能も向上することが示される。
  • この枠組みは視覚モデルにとどまらず、LCHによりGPT-2 Large内の回路(circuits)を特定できることを示唆しており、仮説を検討するための公開コードも提供されている。