MOCA：一方向クロスアテンションとフィードバック遮断を備えたモジュラー因果推論フレームワーク（Transformerベース）

arXiv stat.ML / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MOCA（Modular One-way Causal Attention）は、複雑で非線形かつ高次元の治療・アウトカム機構を伴う観測データから因果効果を推定するために、交絡の扱いをより頑健にするTransformerベースの枠組みです。
この手法はモジュラー設計で治療モデルとアウトカムモデルを分離し、交絡調整に一方向のクロスアテンションを用いることで因果の方向性を保ちます。
「カッティングフィードバック」と呼ばれる戦略は勾配のdetachによって実装されており、アウトカム損失が治療モジュールを更新するのを防ぎ、治療側表現への望ましくない情報漏えいを抑制します。
複数のシミュレーション設定と実データ2ベンチマーク（Infant Health and Development Program、Dehejia–Wahba）で、IPW/AIPW、X-learner、TARNet、DragonNetなどの既存手法に対して競争力、または改善が示されています。
著者らは、一方向の情報フローをもつモジュラー・アテンションが、因果推論と深層学習を組み合わせる有望で解釈可能な方向性になると述べています。

Abstract

観測データからの因果効果推定には、交絡の慎重な調整が必要です。逆確率重み付け（inverse probability weighting）や拡張逆確率重み付け（augmented inverse probability weighting）といった古典的推定量は、条件が良いモデル化の下では有効ですが、治療割当てとアウトカム（結果）メカニズムが複雑で非線形かつ高次元になると、不安定になり得ます。機械学習や表現学習のアプローチは柔軟性を高めますが、共同学習によってアウトカムに関する情報が治療側の表現に影響してしまうことがあり、因果の観点からは望ましくありません。私たちは、治療とアウトカムのモデリングをモジュール設計により分離する、トランスフォーマーに基づく枠組みMOCA（Modular One-way Causal Attention）を提案します。そして、一方向の注意（attention）メカニズムを用いて交絡因子の調整を行います。勾配のデタッチ（gradient detachment）によって実装されるカッティング・フィードバック戦略により、アウトカム損失が治療モジュールを更新しないようにします。この設計は、因果推論におけるトランスフォーマーの表現力を維持しつつ、情報の流れの方向性を保存します。線形、非線形、重い裾（heavy-tailed）、隠れた交絡、そして高次元といった複数のシミュレーションシナリオにおいて、MOCAはIPW、AIPW、X-learner、TARNet、DragonNetに対して競争的、あるいは改善した性能を示します。さらに、この手法を実世界のベンチマークとして、Infant Health and Development ProgramデータセットおよびDehejia-Wahbaデータセットに適用し、その結果を示します。これらの結果は、一方向の情報流を伴うモジュール型注意が、現代の深層学習モデルによる因果推論に対して有望で、解釈可能な方向性を提供することを示唆しています。