教師なしコンセプト抽出のための統一的フレームワーク

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師なしコンセプト抽出を「生成モデルの同定」として捉える統一的な理論フレームワークを提案しています。
  • 同定可能性(identifiability)に関する一般的なメタ定理を提示し、保証の証明を2つの集合の共通部分の解析へと還元します。
  • スパースオートエンコーダやトランスコーダなど、広く使われる複数の手法に対してこの枠組みが適用されます。
  • モデル・ステアリングやアンラーニングのような下流タスクで重要となる「保証」を示す作業を簡略化し、より原理に基づいた新しいコンセプト抽出手法の開発につなげることを目指しています。

概要: スパース自己符号化器やトランスコーダのような概念抽出の技術は、低レベルの非記号表現から高レベルの記号的概念を抽出することを目指しています。抽出されたこれらの概念を、モデルの操縦(steering)や消去(unlearning)といった下流タスクに用いる場合、その保証、または保証がないことを理解することが不可欠です。本研究では、教師なしの概念抽出のための統一的な理論的枠組みを提示します。この枠組みにおいて、概念抽出の課題を生成モデルを同定する問題として定式化します。識別可能性(identifiability)に関する一般的なメタ定理を提示し、識別可能性の保証を確立する問題を、2つの集合の交わりを特徴づける問題へと帰着させます。広く用いられているさまざまなアプローチに対して示すとおり、このメタ定理は、そのような保証を証明する作業を大幅に単純化します。これにより、概念抽出のための新しい、原理に基づくアプローチの開発への道が開かれます。