JudgeSense：LLM-as-a-Judgeシステムにおけるプロンプト感度を測るベンチマーク

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、意味的に同等なプロンプトをパラフレーズした場合でも、LLMを「判定者（judge）」として使ったときの判決がどれだけ安定しているかを測るベンチマークとしてJudgeSenseを提案している。
判定の安定性は、Judge Sensitivity Score（JSS）として定義され、パラフレーズ対に対して判定者が同一の決定を返した割合で表される。
検証済みの494件のパラフレーズ対に対して9種類のjudgeモデルを評価したところ、判定者の差が大きいのはcoherenceであり、JSSは0.389〜0.992の範囲に分布した。
factualityでは当初JSSが約0.63に集中していたが、その不安定さは極性が反転したプロンプトのアーティファクトに強く起因し、修正後はfactualityの一貫性が約0.9まで改善した。
preferenceやrelevanceのようなペアワイズ課題では8/9のjudgeが常に同じ結論を選ぶ退行的（degenerate）挙動を示し、強いポジションバイアスが示唆されたうえで、標準化されたJSS報告を支えるコード、決定ログ、検証済みパラフレーズデータセットを公開している。

Abstract

大規模言語モデルは、他のモデルを評価するための自動判定者としてますます広く導入されていますが、意味的に同等なプロンプト言い換えに対して判定がどれほど安定しているかは未測定のままです。我々は、Judge Sensitivity Score（JSS）を通じてこの性質を定量化するための枠組みおよびベンチマークであるJudgeSenseを提案します。JSSは、判定者が同一の判断を返す言い換えペアの割合として定義されます。 9つの判定モデルを494の検証済み言い換えペアで評価したところ、判定者が有意に異なるのは「首尾一貫性」タスクのみであり、JSSは0.389から0.992の範囲でした。「事実性」では、すべての判定者がJSS約0.63の周りに集団的に位置しており、これは極性が反転したプロンプトのアーティファクトによって引き起こされていました。補正後は、事実性のJSSは約0.9まで上昇します。「ペアごとのタスク」（嗜好と関連性）では、9人中8人の判定者が退化した常にAの挙動を示し、強い位置バイアスが示唆されます。モデルの規模は一貫性を予測しません。標準化されたJSSの報告を支援するために、コード、判断ログ、検証済みの言い換えデータセットを公開します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

JudgeSense：LLM-as-a-Judgeシステムにおけるプロンプト感度を測るベンチマーク

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力