JudgeSense:LLM-as-a-Judgeシステムにおけるプロンプト感度を測るベンチマーク

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、意味的に同等なプロンプトをパラフレーズした場合でも、LLMを「判定者(judge)」として使ったときの判決がどれだけ安定しているかを測るベンチマークとしてJudgeSenseを提案している。
  • 判定の安定性は、Judge Sensitivity Score(JSS)として定義され、パラフレーズ対に対して判定者が同一の決定を返した割合で表される。
  • 検証済みの494件のパラフレーズ対に対して9種類のjudgeモデルを評価したところ、判定者の差が大きいのはcoherenceであり、JSSは0.389〜0.992の範囲に分布した。
  • factualityでは当初JSSが約0.63に集中していたが、その不安定さは極性が反転したプロンプトのアーティファクトに強く起因し、修正後はfactualityの一貫性が約0.9まで改善した。
  • preferenceやrelevanceのようなペアワイズ課題では8/9のjudgeが常に同じ結論を選ぶ退行的(degenerate)挙動を示し、強いポジションバイアスが示唆されたうえで、標準化されたJSS報告を支えるコード、決定ログ、検証済みパラフレーズデータセットを公開している。

Abstract

大規模言語モデルは、他のモデルを評価するための自動判定者としてますます広く導入されていますが、意味的に同等なプロンプト言い換えに対して判定がどれほど安定しているかは未測定のままです。我々は、Judge Sensitivity Score(JSS)を通じてこの性質を定量化するための枠組みおよびベンチマークであるJudgeSenseを提案します。JSSは、判定者が同一の判断を返す言い換えペアの割合として定義されます。 9つの判定モデルを494の検証済み言い換えペアで評価したところ、判定者が有意に異なるのは「首尾一貫性」タスクのみであり、JSSは0.389から0.992の範囲でした。「事実性」では、すべての判定者がJSS約0.63の周りに集団的に位置しており、これは極性が反転したプロンプトのアーティファクトによって引き起こされていました。補正後は、事実性のJSSは約0.9まで上昇します。「ペアごとのタスク」(嗜好と関連性)では、9人中8人の判定者が退化した常にAの挙動を示し、強い位置バイアスが示唆されます。 モデルの規模は一貫性を予測しません。標準化されたJSSの報告を支援するために、コード、判断ログ、検証済みの言い換えデータセットを公開します。

JudgeSense:LLM-as-a-Judgeシステムにおけるプロンプト感度を測るベンチマーク | AI Navigate