スパース・オートエンコーダはコンセプト・マニフォールドを捉えるのか?

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、SAEが概念を独立した線形方向に対応づけるという一般的な前提を問い直し、多くの概念が低次元の幾何学的マニフォールド上に位置する可能性を示します。
  • 著者らは、SAEがマニフォールドを捉える条件と方法を明らかにする理論的枠組みを提案し、全体的(グローバル)に原子(アトム)のコンパクトな集合でマニフォールド全体を張る方法と、局所的に幾何を限定領域でタイル状に覆う特徴へ分配する方法の2つに整理します。
  • 実験的に、SAEは連続的なマニフォールド構造をうまく再構成できず、グローバル解と局所的タイル解を混ぜ合わせた「dilution(希釈)」と呼ぶ状態で断片化することを示します。
  • このdilutionの振る舞いは、個々の学習済みコンセプト単体を見てもマニフォールド構造が目立ちにくい理由を説明し、孤立した方向ではなく首尾一貫したアトムの集合を事後に非教師ありで探索する手法を促します。
  • まとめとして、今後の表現学習では解釈可能性の基本単位を単一の特徴方向ではなく、幾何学的な対象(マニフォールド的な単位)に置くべきだと示唆します。

概要: スパース自己符号化器(SAE)は、ニューラルネットワーク表現から解釈可能な特徴を抽出するために広く用いられており、しばしば「概念は独立した線形方向に対応する」という暗黙の前提が置かれています。しかし、増えつつある証拠は、多くの概念が代わりに、連続的な幾何学的関係を符号化する低次元多様体に沿って組織化されていることを示唆しています。これにより、次の3つの基本的な疑問が生じます。すなわち、SAEが多様体を捉えるとはどういう意味か、既存のSAEアーキテクチャはいつそれを捉えるのか、そしてどのように捉えるのかです。私たちはこれらの問いに答える理論的枠組みを開発し、SAEが多様体を、根本的に異なる2つの方法で捉えられることを示します。1つは、線形空間がその多様体全体を含むように、コンパクトな原子(atom)の群を割り当てることで、全体的(グローバル)に捉える方法です。もう1つは、基礎となる幾何学の限られた領域をそれぞれ選択的に敷き詰める(タイルする)特徴群に分配することで、局所的(ローカル)に捉える方法です。実験的に、SAEは連続的な構造を劣適切に回復しており、グローバルな部分空間と局所的な敷き詰め解を混ぜ合わせることで、私たちが「希釈(dilution)」と呼ぶ分断された領域(レジーム)でそれが起きていることを見いだします。これにより、多様体構造が個々の概念のレベルではほとんど見えることがない理由が説明でき、孤立した方向ではなく、原子のまとまり(コヒーレントなグループ)を探す、事後的な教師なし発見法(post-hoc unsupervised discovery methods)を動機づけます。より広く言えば、私たちの結果は、今後の表現学習の手法は、個々の方向だけでなく、幾何学的対象(geometric objects)を解釈可能性の基本単位として扱うべきだことを示唆しています。