要旨: 支配的なIR閾値パラダイムは、不均衡比(IR)とオーバーサンプリングの有効性の間に正の相関があると仮定しているが、この前提は、統制された実験によっては経験的に裏づけられていない。私たちは、アルゴリズム的なガウス混合データセットの生成により、データ特性(クラスの分離可能性、クラスタ構造)を一定に保ったままIRを体系的に操作する、12件の統制実験(N > 100のデータセット変種)を実施した。さらに2件の検証実験では、天井効果および指標への依存性を調べた。これらの全手法をOpenMLの17の実世界データセットで評価した。交絡変数を制御すると、IRはオーバーサンプリングの有益性に対して弱〜中程度の負の相関を示した。クラスの分離可能性は、モデレーターとしてはるかに強力であり、IR単独よりも手法の有効性に関する分散を有意に多く説明した。実務者のためのエビデンスに基づく選択基準を提供するために、IR、クラスの分離可能性、クラスタ構造を統合する「Context Matters(文脈が重要)」の枠組みを提案する。
アンバランス比を超えて:オーバーサンプリング手法選択におけるデータ特性を決定的なモデレータとして捉える
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、IR(Imbalance Ratio)に関する一般的な「しきい値」仮定に異議を唱え、クラスの識別可能性とクラスタ構造を一定に保ったままIRを変化させる12の制御実験(100超のデータセット派生)を実施することで検証する。
- 共変量(交絡要因)を制御した後、IRはオーバーサンプリングの向上と予想される正の関係ではなく、弱〜中程度の負の相関にとどまることが示される。
- クラスの識別可能性は、オーバーサンプリングの有効性に対するはるかに強いモデレータであり、IR単独よりも大きな割合の性能変動を説明できることが特定される。
- 追加の検証実験では、天井効果や指標への依存性を探り、さらに17の実世界のOpenMLデータセットにまたがる評価によって、制御実験で得られた知見を支持する。
- 著者らは、IR、クラスの識別可能性、クラスタ構造を統合して、エビデンスに基づくオーバーサンプリング手法の選択を導く「Context Matters(文脈が重要)」という枠組みを提案する。
