要旨:言語モデルのベンチマークは、実務者が意図するものを実際に測定しているのだろうか?
高レベルのメタデータだけでは、ベンチマークの粒度の高い現実を伝えるには粗すぎる。例えば「poetry」ベンチマークは俳句をテストしないかもしれない一方で、「instruction-following」ベンチマークはしばしば任意のスキルの混成をテストする。
この不透明さは、実務家の目標との整合性を検証する作業を骨の折れるものにし、ユーザーの関心の未検証の側面でモデルが失敗しても、能力の錯覚を招くリスクがある。
私たちはBenchBrowserを紹介します。これは20以上のベンチマークスイートにわたって、自然言語の使用ケースに関連する評価項目を提示するリトリーバーです。
高い検索精度を確認した人間の研究によって検証されたBenchBrowserは、実務家が低い内容妥当性(能力の側面の範囲が狭い)と低い収束的妥当性(同じ能力を測定したときの安定したランキングの欠如)を診断するのに役立つ証拠を生成します。
したがって、BenchBrowserは実務家の意図とベンチマークが実際にテストする内容との間の重大なギャップを定量化するのに役立ちます。
返却形式: {"translated": "翻訳されたHTML"}