容量制約下における不均衡分類

arXiv stat.ML / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、不均衡データ問題のうち、少数派(陽性)クラスが過小であり、陽性の可能性を見つけると追跡確認がコスト高で、しかも運用キャパシティが限られている分類設定を扱います。
  • シーケンシャル/オンラインの意思決定を前提に、ユーザーが定めた「陽性ラベル付けの割合(レート)」の上限を強制しつつ、検出性能を最大化する枠組みを提案します。
  • この手法は標準的な学習手法で実装でき、データが到着するたびにリアルタイムで判断する設定へ自然に拡張できます。
  • 実験結果では、容量制約を明示的に取り入れることで、SMOTEのような従来のリサンプリング手法よりも大きな改善が得られることが示されています(これらは陽性選択率を直接制御しないため)。

Abstract

多くの分類設定では、本来主要な関心対象であるクラスが過小に表れているため、稀少疾患の検出や詐欺の特定といった応用において不均衡データ問題が生じます。こうした状況では、潜在的な陽性インスタンスを見つけることは、医用画像や詳細な取引の検査といったコストの高い追跡アクションを通常引き起こし、それらは限られた運用能力のもとで実行されます。本設定に動機づけられ、データが逐次的に到着し、さらなる分析のために選択できるインスタンス数に制約があるもとで意思決定を行わなければならない分類問題を考えます。私たちは、陽性予測の割合を明示的に制御し、ユーザーが定義した上限として「観測のうち少数クラスに属すると分類された割合」を拘束しつつ、検出性能を最大化する分類フレームワークを提案します。このアプローチは標準的な学習手法を用いて実装でき、意思決定がリアルタイムで行われるオンライン設定にも自然に拡張されます。さらに、能力制約を組み込むことで、SMOTEのようなリサンプリング手法を含む従来手法よりも大幅な改善が得られることを示します。これらは、選択率を直接制御しないためです。