Proximity Matters: 局所近接性を強化したバランシングによる治療効果推定

arXiv stat.ML / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、観測データからの異質な治療効果(HTE)推定に取り組む。そこでは、治療群と対照群が体系的に異なることで生じる治療選択バイアスを扱う。
  • 提案手法は、CFR-Pro(近接性を強化した反事実回帰)であり、グローバルな潜在空間の整列のみに依存するのではなく、最適輸送によってペアワイズな局所近接(proximity)正則化項を追加することで、局所的な類似性の捉え方を改善する。
  • 近接性/不一致の計算は、高次元かつ少量データでは信頼性が低下するため、著者らは、距離精度の一部と引き換えにサンプル複雑度を改善する情報的な部分空間射影器を導入する。
  • 実験の結果、CFR-Proは治療群間でのユニットの対応付けをより正確に行い、選択バイアスを低減し、既存のベースライン手法よりも優れていることが示される。
  • 著者らは、再現性と実践的な実験を支援するため、GitHubでCFR-Proのオープンソースコードを提供している。

Abstract

観測データからの異種治療効果(HTE)推定は、治療選択バイアスによって大きな困難を伴う。既存の手法は、潜在空間において治療群間の分布の不一致を最小化することでこのバイアスに対処し、グローバルな整合に焦点を当てている。しかし、局所的な近接性、すなわち類似したユニットは類似した結果を示すという有益な側面は、しばしば見落とされている。本研究では、HTE推定の文脈において表現のバランシングを強化するために、近接性を活用するProximity-enhanced CounterFactual Regression(CFR-Pro)を提案する。具体的には、最適輸送に基づくペアワイズの近接性正則化項を導入し、局所的な近接性を不一致の計算に組み込む。しかし、次元の呪いにより、近接性指標と不一致推定が無効になる――HTE推定のためのデータが限られていることによって状況はさらに悪化する。そこでこの問題に対処するため、最小距離の精度を犠牲にしてサンプル複雑性を改善する、情報的な部分空間プロジェクタも新たに開発する。大規模な実験により、CFR-Proが異なる治療群間のユニットを正確に対応付けできること、治療選択バイアスを効果的に緩和できること、そして競合手法を大幅に上回ることを示す。コードはhttps://github.com/HowardZJU/CFR-Pro で利用可能である。