欠損データ補完に関する学際的かつタスク横断レビュー

arXiv stat.ML / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 欠損データは多くの領域において分析や意思決定を大きく妨げる根本的な課題であり、現在の研究は分野や手法にまたがって断片化している。
  • 本レビューは欠損メカニズム、単一補完と複数補完、補完の目的、そして領域ごとの問題特性を体系的に整理し、統計的基礎と現代の機械学習を橋渡しする。
  • 補完アプローチは回帰やEMアルゴリズムなどの古典的方法から、低/高ランクの行列補完、深層学習(オートエンコーダ、GAN、拡散モデル、グラフニューラルネットワーク)、さらには大規模言語モデルまで幅広く分類している。
  • テンソル、時系列、ストリーミング、グラフ、カテゴリデータ、多様なモダリティといった複雑なデータ型への対応に重点を置くとともに、分類・クラスタリング・異常検知といった下流タスクとの統合方法(逐次パイプラインと同時最適化)も扱う。
  • 理論的保証、ベンチマーク、評価指標を評価しつつ、モデル選択やハイパーパラメータ最適化、連合学習によるプライバシー保護補完の重要性の高まり、ドメインやデータ型をまたいで適応できる一般化モデルの追求など、今後の課題と方向性を提示している。

要旨: 欠測データの欠如は、データサイエンスにおける根本的な課題であり、医療、バイオインフォマティクス、社会科学、Eコマース、産業モニタリングなど幅広い分野において、分析と意思決定を大きく妨げています。数十年にわたる研究と多数の補完(imputation)手法にもかかわらず、文献は分野ごとに断片化しており、統計的基礎と現代の機械学習の進展を結び付ける包括的な統合の必要性が切実にあります。本研究では、欠測メカニズム、単一補完と複数補完、さまざまな補完目標といった中核概念を体系的にレビューし、各種ドメインにまたがる問題特性を検討します。さらに、本レビューは、回帰やEMアルゴリズムといった古典的手法から、低ランクおよび高ランクの行列補完、深層学習モデル(オートエンコーダ、GAN、拡散モデル、グラフニューラルネットワーク)、大規模言語モデルに至るまで、補完手法の包括的な分類を提示します。テンソル、時系列、ストリーミングデータ、グラフ構造化データ、カテゴリデータ、多モーダルデータといった複雑なデータ型に対する手法には特に重点を置きます。手法論にとどまらず、分類、クラスタリング、異常検知といった下流タスクへの補完の重要な統合について、逐次的パイプラインと共同最適化フレームワークの両方を検討します。加えて、本レビューでは理論的保証、ベンチマークのリソース、評価指標も評価します。最後に、重要な課題と今後の方向性を特定し、モデル選択とハイパーパラメータ最適化、フェデレーテッドラーニングによるプライバシー保護型補完の重要性の高まり、ならびにドメインやデータ型をまたいで適応できる汎用化可能なモデルの追求を強調することで、将来の研究に向けたロードマップを示します。