不均衡分類におけるマイノリティ部分概念(サブコンセプト)の偏りを補正する性能推定

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、不均衡分類におけるクラス単位の評価が、同一クラス内の異なるサブコンセプト間の大きな性能差を隠してしまうと主張している。
  • これまでの対策はテスト時に真のサブコンセプトラベルが必要だったが、実運用ではそのラベルが得られないことが多い。
  • そこで著者らは、多クラスのサブコンセプトモデルによる事後確率を用いて、利用できないサブコンセプトラベルを代替する実用的なユーティリティ重み付き評価を提案している。
  • その結果得られる、確率(不確実性)を織り込んだソフト指標を predicted-weighted balanced accuracy(pBA)として定義し、より安定で解釈しやすい評価を狙っている。
  • 表形式ベンチマーク、医療画像、テキストデータの実験では、クラス内の多様性があると非重み付きスコアが誤解を招き得る一方で、pBAはサブコンセプト分布が偏っていても極端でない場合により適切な評価を与えることを示している。

要旨: クラスレベルでの評価は、同じクラス内の下位概念(サブコンセプト)にまたがる実質的な性能差を隠してしまうことがあり、その結果、平均では良好な性能を示すモデルが、特定の下位集団(サブポピュレーション)では失敗することがあります。先行研究では、不均衡な分類に対する一般的な評価指標が、より大きい少数派の下位概念に偏っていること、また真の下位概念ラベルを用いたユーティリティベースの再重み付けによってこの偏りを軽減できることが示されています。しかし、こうしたラベルは検証(テスト)時にはほとんど利用できません。本研究では、利用できない下位概念ラベルを、多クラスの下位概念モデルから得られる予測事後確率で置き換える実用的なユーティリティ重み付き評価を導入します。評価の重みは、この事後に基づく期待ユーティリティとして定義され、予測された重み付けを用いた不確実性に配慮した指標として、predicted-weighted balanced accuracy(pBA)と呼びます。表形式ベンチマークに加えて、医用画像およびテキストデータセットでの実験により、クラス内の異質性のもとでは、重みなしのスコアが誤解を招きうる一方で、pBAは、下位概念の分布が偏っているものの病理的(破綻している)わけではない場合に、より安定で解釈可能な評価を提供することが分かりました。コードは以下で公開しています: https://anonymous.4open.science/r/correcting-bias-imbalance-9C6C/

不均衡分類におけるマイノリティ部分概念(サブコンセプト)の偏りを補正する性能推定 | AI Navigate