成長痛:固定パラメータのキャリブレーションによる拡張可能で効率的なLLMベンチマーク

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、多次元項目応答理論(IRT)とアンカー項目を用いて、新たに追加されたベンチマークを固定された評価スイートに対してキャリブレートする、拡張可能なLLMベンチマークの枠組みを提案する。
  • 異なるモデルを異なるデータセットやサンプルで評価してしまうことによって生じる比較可能性の問題に対し、既にキャリブレート済みの項目パラメータを固定し、データセットごとに固定されたアンカー集合を用いることで対処する。
  • 本手法は、現実的に「データセットが時間とともに到着する」状況での評価を可能にし、当時利用可能だったデータセットでのみモデルをテストしている場合でも、評価期間をまたいだ直接比較を可能にする。
  • 400以上のLLMに対する実験により、データセットあたり約100問のアンカー質問を用いることで、ベンチマーク全体の性能を2〜3パーセントポイント以内で予測でき、かつ順位付けを(Spearman ρ ≥ 0.9で)維持できることが示される。
  • 著者らはこのアプローチを実装するコードを提供しており、新たにデータセットを追加する際の評価コストを一定に保ちながらベンチマークスイートを拡張する手段として位置づけている。