On the Geometry of Receiver Operating Characteristic and Precision-Recall Curves

arXiv stat.ML / 4/15/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、ROC曲線とPR曲線の幾何学的性質を解析し、主要な二値分類指標がクラス条件付き分布関数に基づく合成関数 G := F_p ∘ F_n^{-1} の関数として表せる点を示している。
  • この幾何学的視点により、決定しきい値(operating point)の選択、しきい値変更が性能に与える影響、ならびに分類器同士の比較が体系的に理解・実行できると主張している。
  • ROC/PR曲線の形状や幾何が分類器の挙動(クラス分離性や分散など)をどう反映するかを説明し、分類器の優位性(dominance)に関する条件も検討している。
  • さらに、正例から負例へのリークを表す関数 G と Kullback-Leibler(KL)ダイバージェンスの関係を導出し、確率的な意味付けを与えている。
  • 実運用に向けて、モデルキャリブレーション、コストを考慮した最適化、現実の容量制約の下での operating point 選定などの実務的示唆を提示している。

Abstract

We study the geometry of Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves in binary classification problems. The key finding is that many of the most commonly used binary classification metrics are merely functions of the composition function G := F_p \circ F_n^{-1}, where F_p(\cdot) and F_n(\cdot) are the class-conditional cumulative distribution functions of the classifier scores in the positive and negative classes, respectively. This geometric perspective facilitates the selection of operating points, understanding the effect of decision thresholds, and comparison between classifiers. It also helps explain how the shapes and geometry of ROC/PR curves reflect classifier behavior, providing objective tools for building classifiers optimized for specific applications with context-specific constraints. We further explore the conditions for classifier dominance, present analytical and numerical examples demonstrating the effects of class separability and variance on ROC and PR geometries, and derive a link between the positive-to-negative class leakage function G(\cdot) and the Kullback-Leibler divergence. The framework highlights practical considerations, such as model calibration, cost-sensitive optimization, and operating point selection under real-world capacity constraints, enabling more informed approaches to classifier deployment and decision-making.