広告

BenchScope:あなたのベンチマークは独立したシグナルをいくつ提供しているのか?

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、中心化したベンチマークスコアスペクトルの参加率(participation ratio)に基づく高速な診断指標として、Effective Dimensionality(ED)を導入し、報告されたスコアが実際にどれだけ独立した情報を含んでいるかを推定します。
  • 8つの領域にまたがる22のベンチマークに対して8,400件超のモデル評価にEDを適用した結果、Open LLM Leaderboardの6つのスコアのように、現在の評価スイートには強い冗長性があることが分かり、ED=1.7のように有効な軸は約2本で振る舞うことを示します。
  • BBHとMMLU-Proは非常に相互に置き換え可能(相関ρ=0.96)であり、複数のサブポピュレーションにわたって安定している一方、ベンチマーク間での測定の広さは20倍以上も異なることを報告しています。
  • 著者らは、EDランキングが次元を一致させた統制のもとで安定であることを示し、EDを用いて冗長なベンチマーク構成要素を検出し、パフォーマンス条件付き圧縮をモニタリングし、継続的なベンチマーク保守を支援します。
  • 本論文は、22ベンチマークの参照アトラスと、保守担当者向けの4ステップのワークフローを提供し、EDはスクリーニング統計(潜在因子の実数を直接数えるものではない)であることを、ヌル分析・信頼性分析・飽和分析によって裏付けた上で注意喚起しています。

Abstract

AI評価スイートは、多くのスコアを報告する一方で、それらのスコアが独立した情報を含むかどうかを検証しないことがしばしばあります。そこで本稿では、中心化されたベンチマークスコアスペクトルの参加比(Effective Dimensionality: ED)を、測定の幅を素早く、母集団に条件付けした上界として診断する手法として導入します。8つの領域にまたがる22のベンチマークに対し、8,400件超のモデル評価を対象として、インスタンス単位の粒度で適用した結果、EDは大きな冗長性を明らかにします。すなわち、6スコアの「Open LLM Leaderboard」は、およそ2つの有効な測定軸として振る舞います(ED = 1.7)。また、BBHとMMLU-Proはほぼ互換的です(rho = 0.96、7つの下位母集団にわたって安定)。さらに、測定の幅は現在のベンチマーク間で20倍以上も変動します。本稿では、対応する次元制御のもとで相対的なEDランキングが安定であることを示し、EDが冗長なスイート構成要素を検出し、性能に条件付けされた圧縮をモニタし、ベンチマークの保守を導くことができることを示します。二値のスペクトルは絶対的な潜在次元性を過大評価するため、EDは実際の因子数として解釈するのではなく、スクリーニング統計として解釈し、ヌル、信頼性、飽和に関する分析によって補完します。22ベンチマークの参照アトラスと、ベンチマーク保守者がスコア行列と数行のコードで実行できる4ステップの診断ワークフローを提供します。

広告