Manokhin確率マトリクス:分類器の確率品質を診断するためのフレームワーク
arXiv stat.ML / 2026/5/6
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- Manokhin確率マトリクスは、Brierスコアの単一指標としての限界を踏まえ、分類器の確率品質を信頼性(キャリブレーション)と分解能(識別力)に分解して診断する新しい枠組みです。
- 分類器の性能を、Spiegelhalter Z統計量(キャリブレーション)とAUC-ROCのexpected rankで2×2グリッドにマッピングし、Eagle/Bull/Sloth/Moleの4つのアーキタイプとして整理することで、具体的な打ち手が示されます。
- 大規模評価(21分類器、5つの事後キャリブレータ、TabArena-v0.1の30の実タスク)では、CatBoost/TabICL/EBM/TabPFN/GBC/Random ForestがEagle、XGBoost/LightGBM/HGBがBull、SVM/LR/LDA/経験的ベースレート予測器がSloth、MLP/KNN/Naive Bayes/ExtraTreesがMoleとして分類されます。
- 実験では、キャリブレーションはBullでlog-lossを6.5%〜12.6%改善する一方、Eagleでは2.1%悪化し得ることが示され、理論(Proposition 1)として「順序を保存する事後キャリブレーションでは識別力は増やせない」ことが述べられています。
- 実務上の指針として、Brierスコアを最適化する前に分解することが推奨され、まず識別力を最適化し、その後事後キャリブレーションで信頼性を補正する、という手順が提示されています(コードと生データはGitHubで公開)。




