要旨: 欠測データはデータ分析における普遍的な課題であり、多くの場合、偏った不正確な結果につながります。従来の補完(imputation)手法は通常、欠測のメカニズムが欠測値自身とは独立である欠測率ランダム(missing-at-random; MAR)であると仮定します。しかし、この仮定は実世界の状況ではしばしば破られます。この課題に対処するために、近年、深層学習を用いた補完手法の進展が促されてきました。一方で、これらの手法は、欠測がランダムでない(missing-not-at-random; MNAR)データにおける非パラメトリックな識別可能性という重要な問題を無視しており、それが偏り、かつ信頼できない結果を招き得ます。本論文は、{MNARデータ} に対する深層潜在変数モデルに基づく新しい枠組みを提案することで、このギャップを埋めることを目指します。条件付きの自己検閲がないという仮定(潜在変数{given}に条件づけたもとでの)に基づき、データ分布の識別可能性を確立します。この重要な理論結果は、提案手法の実行可能性を保証します。未知のパラメータを効果的に推定するために、重要度付きオートエンコーダを用いる効率的なアルゴリズムを開発します。特定の整合条件(regularity conditions)のもとで、推定プロセスが真の(ground-truth)同時分布を正確に復元することを、理論的にも実証的にも示します。大規模なシミュレーション研究および実世界データを用いた実験により、提案手法が、欠測データ補完に関するさまざまな古典的手法および最先端の手法と比べて優れていることを示します。
MNARデータのための識別可能な深い潜在変数モデル
arXiv stat.ML / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、missing-not-at-random(MNAR)設定におけるバイアスのかかった結果を扱い、多くの深層学習ベースの補完(imputation)手法が missing-at-random(MAR)を前提としており、その仮定が破られると失敗しうる点を指摘しています。
- 潜在変数を用いた深い潜在変数モデルによる枠組みを導入し、「条件付きの自己検閲なし(conditional no self-censoring)」という仮定の下で、潜在変数が与えられたときの基となるデータ分布の識別可能性を証明しています。
- 著者らは、未知のパラメータを効率的に学習するための推定方法として、重要度付きオートエンコーダ(importance-weighted autoencoders)に基づく手法を開発しています。
- 本研究は、所定の正則性条件のもとで提案手法が真の同時(joint)分布を復元できることについて、理論的および実証的な根拠を示します。
- 大規模なシミュレーションおよび実世界の実験により、古典的および近年のMNAR補完ベースラインに比べて性能が向上することが示されています。