BenchScope:あなたのベンチマークは独立したシグナルをいくつ提供しているのか?
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、中心化したベンチマークスコアスペクトルの参加率(participation ratio)に基づく高速な診断指標として、Effective Dimensionality(ED)を導入し、報告されたスコアが実際にどれだけ独立した情報を含んでいるかを推定します。
- 8つの領域にまたがる22のベンチマークに対して8,400件超のモデル評価にEDを適用した結果、Open LLM Leaderboardの6つのスコアのように、現在の評価スイートには強い冗長性があることが分かり、ED=1.7のように有効な軸は約2本で振る舞うことを示します。
- BBHとMMLU-Proは非常に相互に置き換え可能(相関ρ=0.96)であり、複数のサブポピュレーションにわたって安定している一方、ベンチマーク間での測定の広さは20倍以上も異なることを報告しています。
- 著者らは、EDランキングが次元を一致させた統制のもとで安定であることを示し、EDを用いて冗長なベンチマーク構成要素を検出し、パフォーマンス条件付き圧縮をモニタリングし、継続的なベンチマーク保守を支援します。
- 本論文は、22ベンチマークの参照アトラスと、保守担当者向けの4ステップのワークフローを提供し、EDはスクリーニング統計(潜在因子の実数を直接数えるものではない)であることを、ヌル分析・信頼性分析・飽和分析によって裏付けた上で注意喚起しています。




