要旨: ベンチマークは、大規模言語モデル(LLM)の進歩を追跡する上で事実上の標準ですが、静的なテストセットは急速に飽和し、汚染に対して脆弱になり、更新するコストもかかります。自由形式の項目のためのスケーラブルな評価は、多くの場合、LLMジャッジに依存しており、追加のバイアス源やプロンプト感度が生じます。私たちは、評価は「モデルがベンチマークにどれだけ良く答えるか」だけでなく、「モデルがベンチマークをどれだけ適切に設計できるか」まで拡張されるべきだと主張します。私たちは、自動化されたベンチマーク生成をベンチマークするための、3段階のパイプラインとデータセットであるBenchBenchを導入します。具体的には、(i) シードとなるベンチマークから構造化されたドメインカードを抽出し、(ii) クォータ制御されたスイートを生成するよう、複数のデザイナー用LLMにプロンプトして、(iii) 可能な場合は厳密/数値/記号の検証器で項目を検証し、それ以外ではルーブリックに基づく判定で検証し、項目レベルの品質フラグと心理測定学的診断を含むデザイナー—アンサーワーモデル行列(designer--answerer matrices)を得ます。計算機科学、数学、医学、心の理論(theory-of-mind)推論にまたがる9つの変種(多言語およびマルチモーダル設定を含む)において、16.7K件の項目を生成し、フィルタリング後に約15K件のコア項目を保持し、さらに約152K件の採点済みモデル—項目応答を作成します。BenchBenchは、ベンチマーク設計能力は応答時間の強さと中程度にしか相関しないこと(Spearmanのrhoは約0.37)、無効性は弁別(discrimination)と負の関連を持つこと(Pearsonのrは約0.62)、そして得られたデザイナー—アンサーワーモデル行列によって、フォーマット/モダリティ/言語の忠実性や、スイート依存の自己/ファミリー間相互作用をスケーラブルに監査できることを示しています。本プロジェクトは以下で公開されています: https://github.com/koanatakiyo/BenchBench.
BenchBench: 自動ベンチマーク生成のベンチマーク
arXiv cs.CL / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、LLM評価は回答の質だけでなく、モデルがベンチマークを設計する能力も測定すべきだと主張している。静的なテストセットは飽和し得る、汚染され得る、そして更新にコストがかかるためである。
- 提案手法 BenchBench は、3段階のパイプラインであり、ドメインカードを抽出し、複数の「デザイナー」LLMを用いてクォータ制御されたベンチマーク・スイートを生成し、多モデルによる回答者パネルで検証する。検証は検証器(verifiers)またはルーブリックに基づく採点によって行う。
- BenchBench は、9種類のバリアント(計算機科学、数学、医学、心の理論)にわたって16.7Kのベンチマーク項目を生成し、約15Kのコア項目を保持する。さらに、約152K件の「モデル対項目」応答を段階評価し、項目レベルの品質フラグと心理測定学的診断を出力する。
- 結果として、ベンチマーク設計能力は回答時の強さと中程度の相関しか示さない(Spearman のρ ≈ 0.37)。また無効性は弁別度と負の関連を持つことが分かり、形式、モダリティ、言語にわたる忠実性(fidelity)のスケーラブルな監査を可能にする。




