Manokhin確率マトリクス:分類器の確率品質を診断するためのフレームワーク

arXiv stat.ML / 2026/5/6

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Manokhin確率マトリクスは、Brierスコアの単一指標としての限界を踏まえ、分類器の確率品質を信頼性(キャリブレーション)と分解能(識別力)に分解して診断する新しい枠組みです。
  • 分類器の性能を、Spiegelhalter Z統計量(キャリブレーション)とAUC-ROCのexpected rankで2×2グリッドにマッピングし、Eagle/Bull/Sloth/Moleの4つのアーキタイプとして整理することで、具体的な打ち手が示されます。
  • 大規模評価(21分類器、5つの事後キャリブレータ、TabArena-v0.1の30の実タスク)では、CatBoost/TabICL/EBM/TabPFN/GBC/Random ForestがEagle、XGBoost/LightGBM/HGBがBull、SVM/LR/LDA/経験的ベースレート予測器がSloth、MLP/KNN/Naive Bayes/ExtraTreesがMoleとして分類されます。
  • 実験では、キャリブレーションはBullでlog-lossを6.5%〜12.6%改善する一方、Eagleでは2.1%悪化し得ることが示され、理論(Proposition 1)として「順序を保存する事後キャリブレーションでは識別力は増やせない」ことが述べられています。
  • 実務上の指針として、Brierスコアを最適化する前に分解することが推奨され、まず識別力を最適化し、その後事後キャリブレーションで信頼性を補正する、という手順が提示されています(コードと生データはGitHubで公開)。

Abstract

Brierスコアは、確率予測における2つの異なる性質を1つに混ぜ合わせています。すなわち信頼性(calibration error)と分解能(判別力)です。私たちは、これらを分離するBCGスタイルの2次元診断フレームワーク「Manokhin Probability Matrix」を導入します。分類器は、SpiegelhalterのZ統計量とAUC-ROCの期待ランクによって2×2グリッド上に配置され、その後4つの類型(アーキタイプ)のいずれかに割り当てられます。Eagle(両軸で良好)、Bull(判別は強いが較正が不十分)、Sloth(よく較正されているが判別器として弱い)、Mole(両方とも不十分)です。各アーキタイプにはそれぞれ異なる処方が伴います。私たちは、大規模な実証研究に基づいて行列を埋めます。この研究には、21個の分類器、5個の事後較正器(post-hoc calibrator)、およびTabArena-v0.1スイートからの30個の実世界の二値分類タスクが含まれます。割り当ては明確です。CatBoost、TabICL、EBM、TabPFN、GBC、Random ForestはEagleです。XGBoost、LightGBM、HGBはBullであり、Venn-Abersの較正ではBullに対してlog-lossが6.5〜12.6%低下しますが、Eagleは2.1%悪化します。SVM、LR、LDA、および実証的なベースレート予測器はSlothです。MLP、KNN、Naive Bayes、ExtraTreesはMoleです。理論的な非対称性が成り立ちます。順序を保つ事後較正器では、判別力を追加することはできません(命題1)。したがって、較正が修正可能な部分であり、判別が困難な部分です。実務上のルールは直接的です。分解を行わずに、総合Brierスコアを最適化しないでください。まず判別を最適化し、その後で事後的に較正を修正します。コードと生の実験データは https://github.com/valeman/classifier_calibration で利用可能です。