離散因果表現学習

arXiv stat.ML / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、離散潜在変数間の因果関係を、ノイズを含む絡み合った観測から見出すことを目的とした生成フレームワーク「離散因果表現学習(DCRL)」を提案する。
  • DCRLは、離散潜在変数上の有向非巡回グラフに加え、潜在変数と観測変数を結ぶ疎な二部グラフを用いる。これにより、連続・カウント・二値といった混在データ型に対して解釈可能性と柔軟性を実現する。
  • 著者らは同定可能性の結果を提示しており、緩やかな条件の下では、観測データ分布のみから潜在因果グラフと二部の計測グラフの双方を復元できることを示す。
  • 潜在変数の構成を推定し、再サンプリングしたうえで、スコアベースの因果発見を行うという3段階のパイプラインを提案し、潜在因果構造の回復についての整合性保証を与える。
  • 教育評価および合成画像データセットでの実験により、DCRLが疎で解釈可能な潜在因果構造を復元できることが示される。

Abstract

因果表現学習は、低レベルで絡み合い(entangled)かつノイズを含む観測から、高レベルの潜在変数間の因果関係を解明することを目指す。既存の手法はしばしば、解釈可能性や形式的な保証を欠く深いニューラルネットワークに依存するか、線形性、連続値のみの観測、強い構造事前(structural priors)といった制約の強い仮定を課すかのどちらかである。これらの制限は、離散的な潜在変数の数が多い場合や、混在型(mixed-type)の観測を扱う応用にとりわけ大きな課題となる。そこで我々は、離散因果表現学習(DCRL)を提案する。これは、離散潜在変数間の有向非巡回グラフ(DAG)をモデル化し、さらに潜在層と観測層を結ぶ疎な二部グラフを併せて持つ、生成フレームワークである。この設計により、解釈可能性を維持したまま、連続値、計数(count)、二値(binary)の応答を柔軟な測定モデルによって扱える。いくつかの穏やかな条件のもとで、二部の測定グラフと潜在の因果グラフの両方が、観測データ分布のみから識別可能であることを証明する。さらに、3段階の推定-再サンプリング-発見(estimate-resample-discovery)パイプラインを提案する:生成モデルパラメータの罰則付き推定、当てはめたモデルからの潜在配置の再サンプリング、再サンプリングした潜在に対するスコアベースの因果探索である。この手続きの一貫性を確立し、潜在因果構造の信頼できる復元を保証する。教育評価と合成画像データに関する実証研究により、DCRLが疎で解釈可能な潜在因果構造を回復できることを示す。