RewardBench 2における実践的なLLM-as-a-Judge改善手法の経験的調査
arXiv cs.CL / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、微調整なしでRewardBench 2におけるGPT-5.4の「LLM-as-a-judge」判定の信頼性を改善するために、差し替え可能な「LLM-as-a-judge」用のプロンプトと集約(アグリゲーション)戦略を経験的に検証する。
- 主な改善をもたらすのは2つの手法である。すなわち、タスク固有の基準(criteria)を注入することで、ほぼコストを増やさずに精度が約+3.0ポイント向上する。一方、アンサンブルによるスコアリングは、コストをおよそ5倍にして約+9.8ポイント向上する。
- 基準注入とアンサンブルを組み合わせると精度は83.6%となり、71.7%のベースラインから+11.9ポイント増加する。
- 評価した追加の手法(キャリブレーション用のコンテキスト、適応的なモデルのエスカレーション、ソフトなブレンディング)は、同程度のコストで基準注入やアンサンブルほどの改善を一貫して再現できなかった。
- アンサンブルはより安価なモデルのティアで特に効果が大きく、低コストで高精度に近い性能を実現できる(例:GPT-5.4 mini、k=8で79.2%、コストは約1.2倍のベースライン比;GPT-5.4 nano、k=8で71.4%、コストは約0.4倍のベースライン比)。




