JudgeSense:LLM-as-a-Judgeシステムにおけるプロンプト感度を測るベンチマーク
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、意味的に同等なプロンプトをパラフレーズした場合でも、LLMを「判定者(judge)」として使ったときの判決がどれだけ安定しているかを測るベンチマークとしてJudgeSenseを提案している。
- 判定の安定性は、Judge Sensitivity Score(JSS)として定義され、パラフレーズ対に対して判定者が同一の決定を返した割合で表される。
- 検証済みの494件のパラフレーズ対に対して9種類のjudgeモデルを評価したところ、判定者の差が大きいのはcoherenceであり、JSSは0.389〜0.992の範囲に分布した。
- factualityでは当初JSSが約0.63に集中していたが、その不安定さは極性が反転したプロンプトのアーティファクトに強く起因し、修正後はfactualityの一貫性が約0.9まで改善した。
- preferenceやrelevanceのようなペアワイズ課題では8/9のjudgeが常に同じ結論を選ぶ退行的(degenerate)挙動を示し、強いポジションバイアスが示唆されたうえで、標準化されたJSS報告を支えるコード、決定ログ、検証済みパラフレーズデータセットを公開している。

