精度（Precision）と再現率（Recall）の間で最適なランキングスコアとは何か？常に見つけられるが、F1はめったに最適ではない

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、分類性能の本質的に多次元の評価指標から、単一のグローバルなランキングを構成する方法を分析し、精度と再現率の補完的なトレードオフに焦点を当てる。
Fβファミリーのスコアによって誘導されるランキングが意味のあるものであることを証明し、最短経路の概念によって精度と再現率に基づく順序付けの関係を示す。
著者らは、精度—再現率の折り合いをつける選択を、Kendall順位相関を用いた最適化問題として言い換え、一般に用いられるF1スコアはこの基準の下ではめったに最適にならないことを示す。
与えられた性能分布または集合に対して任意の最適βを計算するための閉形式の方法など、理論的な手法を導出し、6つのケーススタディを通じてこのアプローチを実証する。

抄録: 性能に基づいてランキング手法やモデルを評価することは極めて重要ですが、性能は本質的に多次元であるため難しい。分類のケースでは、適合率（precision）と再現率（recall）は、確率的な解釈をもつスコアであり、考慮することが重要であり、かつ相補的である。これら2つのスコアが誘導するランキングはしばしば部分的に矛盾する。したがって実務上、2つの見方の間の妥協点を一つの全体的なランキングとして得るために確立することは、非常に有用である。過去約50年の間に、加重調和平均をとること、すなわち F-score、F-measure、あるいは $F_\beta$ が提案されてきた。一般に、基本となるスコアを平均することで、値の観点で中間的なスコアが得られる。しかし、これらのスコアが意味のあるランキングにつながる保証はなく、またランキングがこれらの基礎スコア間の良いトレードオフになっている保証もない。文献における $F_\beta$ スコアの普及を踏まえると、いくつかの明確化が必要である。具体的には: (1) 我々は $F_\beta$ によるランキングが意味をもつことを示し、適合率に基づくランキングと再現率に基づくランキングの間に最短経路を定義する。(2) 2つのスコア間のトレードオフを見つける問題を、Kendall の順位相関で表現された最適化問題として定式化する。我々は、 $F_1$ とその歪みに鈍感な版が、この点において最適からほど遠いことを示す。(3) あらゆる分布または性能の集合に対して最適な $eta$ の値を求めるための理論的手法と閉形式の式を提供し、6つのケーススタディでそれらの使用を示す。コードは https://github.com/pierard/cvpr-2026-optimal-tradeoff-precision-recall で利用可能。

なぜAIエージェントのチームは、エージェントが“振る舞ってくれること”に期待しているだけなのか

Dev.to

Harness as Code：AIワークフローをインフラとして扱う

Dev.to

Claude Codeのワンショット実装能力を向上させる方法

Towards Data Science

毎月0ドルで動かせる「Crypto AIエージェント・スタック」

Dev.to

物体検出ニューラルネットワークの学習のための「無料の小道具（Bag of Freebies）」

Dev.to

精度（Precision）と再現率（Recall）の間で最適なランキングスコアとは何か？常に見つけられるが、F1はめったに最適ではない

要点

関連記事

なぜAIエージェントのチームは、エージェントが“振る舞ってくれること”に期待しているだけなのか

Harness as Code：AIワークフローをインフラとして扱う

Claude Codeのワンショット実装能力を向上させる方法

毎月0ドルで動かせる「Crypto AIエージェント・スタック」

物体検出ニューラルネットワークの学習のための「無料の小道具（Bag of Freebies）」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer