RubricEval: 指示追従のためのLLM「ジャッジ」に対するルーブリック水準のメタ評価ベンチマーク

arXiv cs.AI / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、指示追従タスクで用いられるLLM「ジャッジ」のきめ細かな判定精度を評価することを目的とした、初のルーブリック水準のメタ評価ベンチマークであるRubricEvalを提案する。
  • 3,486件の品質管理済み評価インスタンスを、多様な指示/応答カテゴリおよびモデル出所とともに収集し、さらに性能差をより明確にするためのEasy/Hardサブセットも含める。
  • 実験結果は、ルーブリック水準の判定は依然として信頼性に欠けることを示しており、たとえGPT-4oであってもHardサブセットでの精度は55.97%にとどまる。
  • 本研究は、ルーブリック水準の評価がチェックリスト水準のアプローチよりも優れ得ること、また明示的な推論とルーブリック手法を組み合わせることで、異なるジャッジ間のばらつきが減少することを見出す。
  • 定義されたルーブリックのタクソノミーを用いて、著者らは一般的な失敗モードを分析し、指示追従評価の信頼性を改善するための実行可能な指針を提示する。

Abstract

ルーブリックに基づく評価は、大規模言語モデル(LLM)における指示追従の評価に対して、広く普及したパラダイムとなっています。広範に用いられているにもかかわらず、これらのルーブリック・レベルの評価の信頼性は依然として不明であり、メタ評価が求められています。しかし、先行するメタ評価の取り組みは主に応答レベルに焦点を当てており、ルーブリックに基づく評価が依拠するきめ細かな判断の正確性までは評価できていません。このギャップを埋めるために、RubricEvalを提案します。私たちのベンチマークの特徴は次のとおりです。(1) 指示追従に対する、初めてのルーブリック・レベルのメタ評価ベンチマーク、(2) 複数カテゴリおよび複数のモデル出所にまたがる、多様な指示と応答、(3) 品質管理された3,486件の大規模なインスタンスセットに加え、判定者の性能をより適切に識別できるEasy/Hardサブセット。実験の結果、ルーブリック・レベルの判断はいまだに解決されたとは言えません。指示追従ベンチマークで広く採用されている判定者であるGPT-4oでさえ、Hardサブセットでは55.97%にとどまります。評価パラダイムの観点からは、ルーブリック・レベルの評価はチェックリスト・レベルを上回り、明示的な推論は精度を改善し、そして両者を組み合わせることで判定者間のばらつきを低減します。確立したルーブリックの分類体系を通じて、さらに共通する失敗パターンを特定し、指示追従評価の信頼性を高めるための実行可能な洞察を提供します。