BenchBrowser -- ベンチマーク妥当性を評価する証拠の収集

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、上位レベルのベンチマークメタデータだけでは、実務者が実際に重視する能力をベンチマークが検証しているかどうかを確かめるには不十分であると主張する。
  • 自然言語の使用ケースに関連する評価項目を、20を超えるベンチマーク群にまたがって提示するリトリーバー BenchBrowser を紹介する。
  • 人間の研究によって BenchBrowser の検索精度が検証され、内容妥当性のギャップを診断し、低い収束妥当性を検出する用途を支持している。
  • BenchBrowser は、実務者の意図とベンチマークが実際にテストしている内容とのギャップを定量化し、診断する方法を提供する。

要旨:言語モデルのベンチマークは、実務者が意図するものを実際に測定しているのだろうか?
高レベルのメタデータだけでは、ベンチマークの粒度の高い現実を伝えるには粗すぎる。例えば「poetry」ベンチマークは俳句をテストしないかもしれない一方で、「instruction-following」ベンチマークはしばしば任意のスキルの混成をテストする。
この不透明さは、実務家の目標との整合性を検証する作業を骨の折れるものにし、ユーザーの関心の未検証の側面でモデルが失敗しても、能力の錯覚を招くリスクがある。
私たちはBenchBrowserを紹介します。これは20以上のベンチマークスイートにわたって、自然言語の使用ケースに関連する評価項目を提示するリトリーバーです。
高い検索精度を確認した人間の研究によって検証されたBenchBrowserは、実務家が低い内容妥当性(能力の側面の範囲が狭い)と低い収束的妥当性(同じ能力を測定したときの安定したランキングの欠如)を診断するのに役立つ証拠を生成します。
したがって、BenchBrowserは実務家の意図とベンチマークが実際にテストする内容との間の重大なギャップを定量化するのに役立ちます。

返却形式: {"translated": "翻訳されたHTML"}