Manokhin確率マトリクス：分類器の確率品質を診断するためのフレームワーク

arXiv stat.ML / 2026/5/6

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

Manokhin確率マトリクスは、Brierスコアの単一指標としての限界を踏まえ、分類器の確率品質を信頼性（キャリブレーション）と分解能（識別力）に分解して診断する新しい枠組みです。
分類器の性能を、Spiegelhalter Z統計量（キャリブレーション）とAUC-ROCのexpected rankで2×2グリッドにマッピングし、Eagle/Bull/Sloth/Moleの4つのアーキタイプとして整理することで、具体的な打ち手が示されます。
大規模評価（21分類器、5つの事後キャリブレータ、TabArena-v0.1の30の実タスク）では、CatBoost/TabICL/EBM/TabPFN/GBC/Random ForestがEagle、XGBoost/LightGBM/HGBがBull、SVM/LR/LDA/経験的ベースレート予測器がSloth、MLP/KNN/Naive Bayes/ExtraTreesがMoleとして分類されます。
実験では、キャリブレーションはBullでlog-lossを6.5%〜12.6%改善する一方、Eagleでは2.1%悪化し得ることが示され、理論（Proposition 1）として「順序を保存する事後キャリブレーションでは識別力は増やせない」ことが述べられています。
実務上の指針として、Brierスコアを最適化する前に分解することが推奨され、まず識別力を最適化し、その後事後キャリブレーションで信頼性を補正する、という手順が提示されています（コードと生データはGitHubで公開）。

Abstract

Brierスコアは、確率予測における2つの異なる性質を1つに混ぜ合わせています。すなわち信頼性（calibration error）と分解能（判別力）です。私たちは、これらを分離するBCGスタイルの2次元診断フレームワーク「Manokhin Probability Matrix」を導入します。分類器は、SpiegelhalterのZ統計量とAUC-ROCの期待ランクによって2×2グリッド上に配置され、その後4つの類型（アーキタイプ）のいずれかに割り当てられます。Eagle（両軸で良好）、Bull（判別は強いが較正が不十分）、Sloth（よく較正されているが判別器として弱い）、Mole（両方とも不十分）です。各アーキタイプにはそれぞれ異なる処方が伴います。私たちは、大規模な実証研究に基づいて行列を埋めます。この研究には、21個の分類器、5個の事後較正器（post-hoc calibrator）、およびTabArena-v0.1スイートからの30個の実世界の二値分類タスクが含まれます。割り当ては明確です。CatBoost、TabICL、EBM、TabPFN、GBC、Random ForestはEagleです。XGBoost、LightGBM、HGBはBullであり、Venn-Abersの較正ではBullに対してlog-lossが6.5〜12.6%低下しますが、Eagleは2.1%悪化します。SVM、LR、LDA、および実証的なベースレート予測器はSlothです。MLP、KNN、Naive Bayes、ExtraTreesはMoleです。理論的な非対称性が成り立ちます。順序を保つ事後較正器では、判別力を追加することはできません（命題1）。したがって、較正が修正可能な部分であり、判別が困難な部分です。実務上のルールは直接的です。分解を行わずに、総合Brierスコアを最適化しないでください。まず判別を最適化し、その後で事後的に較正を修正します。コードと生の実験データは https://github.com/valeman/classifier_calibration で利用可能です。