VAE-Inf:不均衡分類のための統計的に解釈可能な生成パラダイム

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VAE-Infは、極端に少ない少数クラス・サンプルでも対応できる不均衡分類の改善を目的とした、生成から識別へつなぐ二段階フレームワークです。
  • まず多数クラスのみでVAEを学習し、潜在事後分布をワッサースタイン・バリセンターで集約して、多数クラスの幾何学的に筋の通ったグローバルなガウス基準モデルを構築します。
  • 次に、少数クラスの限られたデータを用いてエンコーダを微調整し、分散正規化した射影統計に基づく確率的なクラス分離を促す新しい分布対応型の損失関数を導入します。
  • 推論では、仮説検定として自然に解釈できる射影ベースのスコアリングを用いることで、分布非依存のキャリブレーションと、制約的な仮定に頼らない有限標本でのType-I誤り(偽陽性率)の厳密な制御を実現します。
  • 複数の実世界ベンチマークでの実験により、他手法に対して競争力のある性能が示されており、コードは要望に応じて提供されます。

Abstract

クラス不均衡分類は、機械学習において広く見られる難題です。特に、少数サンプルが少なすぎて頑健な識別境界を提供できない場合に顕著です。このような極端な状況では、従来のモデルはしばしば不安定な決定境界に悩まされ、信頼できる誤り制御が欠如します。生成モデル化と識別分類をつなぐために、深い表現学習と統計的に解釈可能な仮説検定を統合する二段階の枠組み\textbf{VAE-Inf}を提案します。第1段階では、変分オートエンコーダ(VAE)を多数クラスのデータのみで学習し、1クラスモデリングの観点を採用します。これにより、基礎となる参照分布を捉えます。得られた潜在事後分布は、Wassersteinバリセントル(Wasserstein barycenter)を介して集約され、グローバルなガウス参照モデルを構築します。これにより、多数クラスに対する幾何学的に筋の通ったベースラインが得られます。第2段階では、この生成的基盤を、少数クラスの限られたサンプルでエンコーダを微調整することで識別型の分類器へと変換します。これは、分散正規化された射影統計に基づいてクラス間の確率的な分離を強制する、分布を意識した新しい損失関数によって実現されます。推論においては、射影ベースのスコアを導入し、自然な仮説検定の解釈を可能にすることで、分布に依存しない較正手続きを導入します。このアプローチは、厳しい仮定を伴うパラメトリックな前提に頼ることなく、第I種誤り(偽陽性率)を有限サンプルで厳密に制御できます。多様な実世界ベンチマークに関する大規模な実験により、本枠組みが他の手法に対して競争力のある性能を達成することを示します。コードは要望に応じて提供します。