最大値ノミネーション標本による分数付き(Fractionally Supervised)分類

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 分数付き(FSC)分類はラベル付きデータとラベルなしデータを統合する枠組みですが、従来の前提では観測は単純ランダム抽出によるものとされていました。
  • 本稿は、保持される観測が極値順序統計量(例:最大値)となる最大値ノミネーション標本(NS)を扱い、この設計が尤度を根本的に変えるため標準的なFSCのEM構成が成立しなくなる点に着目しています。
  • 著者らは、観測された最大値のクラスと、同一セット内の残りユニットの潜在的な構成の両方を扱う潜在変数表現を導入し、新しい定式化を提案しています。
  • その結果、最大値ノミネーション標本向けの正しいEMアルゴリズムと、一貫した加重尤度に基づくFSC手順が得られます。
  • シミュレーションと実データ解析により、希少事象の混合汚染設定で、順位情報を無視するミススペックされた代替手法よりも大きく改善することを示しています。

要旨: 分数付き教師あり分類(FSC)は、モデルに基づく分類においてラベル付きデータとラベルなしデータを組み合わせるための柔軟な枠組みを提供しますが、既存の定式化は単純なランダム抽出を仮定しています。しかし多くの応用では、保持される観測は、ランダムに選ばれたユニットではなく、ある集合から得られる極端な順序統計量です。特に対象母集団が稀である場合には、最大指名サンプリング(NS)によって、スクリーニング、環境モニタリング、反復検査、信頼性研究のように最も情報量の多い観測でサンプルを充実させることができるため、この考え方は魅力的です。このような設計のもとでは、尤度関数は本質的に変化し、通常のFSCのEM構成はもはや成立しません。私たちは、観測された最大値のクラス所属と、集合に含まれる残りのユニットの潜在的な構成の両方を考慮する潜在表現を導入することで、指名サンプルに対するFSCを開発します。その結果得られる手法は、適切なEMアルゴリズムと、NSデータに対する整合的な加重尤度FSC手続きを与えます。手法を一般形で提示し、稀な事象による汚染を含む正規混合に対して実例を示し、そのようなデータが持つ追加の順位情報を無視するミススペックされた代替法よりも、シミュレーションによって大幅に改善することを示します。実データ解析により、その実用的な価値も示されます。