観測不能なソースのサブポピュレーションを伴うバイナリ分類のための教師なしドメイン適応

arXiv stat.ML / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、バイナリ分類のための教師なしドメイン適応を扱い、ラベルYと背景(環境)Aで定義されるソースのサブポピュレーションのうち一つが「観測不能」になっている難設定を研究している。
  • 観測不能なサブ集団を単に無視すると推定がバイアスを持ち、ターゲットでの予測性能が低下し得ることを示しつつ、構造化された欠測(unobservable source subpopulation)下でもターゲット予測を回復できると理論的に示している。
  • ターゲット領域に対して背景別モデルと全体モデルの双方を厳密に導出し、サブポピュレーション比率推定には分布一致(distribution matching)手法を提案している。
  • 推定量の漸近挙動に関する理論保証や予測誤差の上界を与え、合成データと実データの実験で、観測不能サブ集団を考慮しないナイーブなベースラインを上回ることを報告している。

概要: 本研究では、教師なしドメイン適応問題を扱います。このとき、ソースドメインは二値ラベル Y と二値の背景(または環境)A によって定義される部分集団から構成されます。我々は、ソースドメインにおいてそのような部分集団の1つが観測できない、という困難な設定に注目します。素朴にこの観測不能なグループを無視すると、推定に偏りが生じ、予測性能が低下する可能性があります。このような構造化された欠測にもかかわらず、ターゲットドメインにおける予測はなお回復できることを示します。具体的には、ターゲットドメインに対して、背景に特化した予測モデルと全体の予測モデルの両方について、厳密に導出します。実装に向けて、部分集団の比率を推定するための分布整合(distribution matching)手法を提案します。我々は、推定量の漸近的挙動に関する理論的保証を与え、予測誤差に対する上界を確立します。合成データセットおよび現実世界のデータセットの両方での実験により、本手法は、この観測不能なソース部分集団を考慮しない素朴なベンチマークよりも優れていることを示します。