RubricEval: 指示追従のためのLLM「ジャッジ」に対するルーブリック水準のメタ評価ベンチマーク
arXiv cs.AI / 2026/3/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、指示追従タスクで用いられるLLM「ジャッジ」のきめ細かな判定精度を評価することを目的とした、初のルーブリック水準のメタ評価ベンチマークであるRubricEvalを提案する。
- 3,486件の品質管理済み評価インスタンスを、多様な指示/応答カテゴリおよびモデル出所とともに収集し、さらに性能差をより明確にするためのEasy/Hardサブセットも含める。
- 実験結果は、ルーブリック水準の判定は依然として信頼性に欠けることを示しており、たとえGPT-4oであってもHardサブセットでの精度は55.97%にとどまる。
- 本研究は、ルーブリック水準の評価がチェックリスト水準のアプローチよりも優れ得ること、また明示的な推論とルーブリック手法を組み合わせることで、異なるジャッジ間のばらつきが減少することを見出す。
- 定義されたルーブリックのタクソノミーを用いて、著者らは一般的な失敗モードを分析し、指示追従評価の信頼性を改善するための実行可能な指針を提示する。



