BenchBench: 自動ベンチマーク生成のベンチマーク

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、LLM評価は回答の質だけでなく、モデルがベンチマークを設計する能力も測定すべきだと主張している。静的なテストセットは飽和し得る、汚染され得る、そして更新にコストがかかるためである。
提案手法 BenchBench は、3段階のパイプラインであり、ドメインカードを抽出し、複数の「デザイナー」LLMを用いてクォータ制御されたベンチマーク・スイートを生成し、多モデルによる回答者パネルで検証する。検証は検証器（verifiers）またはルーブリックに基づく採点によって行う。
BenchBench は、9種類のバリアント（計算機科学、数学、医学、心の理論）にわたって16.7Kのベンチマーク項目を生成し、約15Kのコア項目を保持する。さらに、約152K件の「モデル対項目」応答を段階評価し、項目レベルの品質フラグと心理測定学的診断を出力する。
結果として、ベンチマーク設計能力は回答時の強さと中程度の相関しか示さない（Spearman のρ ≈ 0.37）。また無効性は弁別度と負の関連を持つことが分かり、形式、モダリティ、言語にわたる忠実性（fidelity）のスケーラブルな監査を可能にする。

要旨: ベンチマークは、大規模言語モデル（LLM）の進歩を追跡する上で事実上の標準ですが、静的なテストセットは急速に飽和し、汚染に対して脆弱になり、更新するコストもかかります。自由形式の項目のためのスケーラブルな評価は、多くの場合、LLMジャッジに依存しており、追加のバイアス源やプロンプト感度が生じます。私たちは、評価は「モデルがベンチマークにどれだけ良く答えるか」だけでなく、「モデルがベンチマークをどれだけ適切に設計できるか」まで拡張されるべきだと主張します。私たちは、自動化されたベンチマーク生成をベンチマークするための、3段階のパイプラインとデータセットであるBenchBenchを導入します。具体的には、(i) シードとなるベンチマークから構造化されたドメインカードを抽出し、(ii) クォータ制御されたスイートを生成するよう、複数のデザイナー用LLMにプロンプトして、(iii) 可能な場合は厳密/数値/記号の検証器で項目を検証し、それ以外ではルーブリックに基づく判定で検証し、項目レベルの品質フラグと心理測定学的診断を含むデザイナー—アンサーワーモデル行列（designer--answerer matrices）を得ます。計算機科学、数学、医学、心の理論（theory-of-mind）推論にまたがる9つの変種（多言語およびマルチモーダル設定を含む）において、16.7K件の項目を生成し、フィルタリング後に約15K件のコア項目を保持し、さらに約152K件の採点済みモデル—項目応答を作成します。BenchBenchは、ベンチマーク設計能力は応答時間の強さと中程度にしか相関しないこと（Spearmanのrhoは約0.37）、無効性は弁別（discrimination）と負の関連を持つこと（Pearsonのrは約0.62）、そして得られたデザイナー—アンサーワーモデル行列によって、フォーマット/モダリティ/言語の忠実性や、スイート依存の自己/ファミリー間相互作用をスケーラブルに監査できることを示しています。本プロジェクトは以下で公開されています: https://github.com/koanatakiyo/BenchBench.

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

BenchBench: 自動ベンチマーク生成のベンチマーク

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査