安全ベンチマークの判断指標は評価設定（ジャッジの構成）にどれほど敏感か？

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、HarmBenchのような安全ベンチマークにおけるLLMジャッジの設定（ジャッジモデル＋ジャッジプロンプト）を固定の実装詳細として扱うべきではないと指摘しています。
因子計画により、評価構造と指示の組み立て方の2軸に沿って12種類のジャッジプロンプトを作成し、Claude Sonnet 4-6を1つのジャッジモデルとして6つの対象モデルと400のHarmBench行動に対して28,812件の判断を行いました。
ジャッジモデルを固定したままプロンプトの文言だけを変えると、有害回答率の測定値が最大24.2ポイント変動し、同一条件内の表現の微細な言い換えでも最大20.1ポイントの振れが生じることが分かりました。
安全性ランキングは中程度に不安定で、平均Kendallのτは0.89でした。またカテゴリーごとの感度は39.6ポイント（著作権）から0ポイント（ハラスメント）まで幅があることが示されました。
補足実験として3種類のジャッジモデルを用いると、ジャッジモデルの選択がさらに分散を生むことも確認され、ジャッジのプロンプト文言が安全ベンチマークの計測ばらつきに大きく影響する、これまで十分に検討されていない要因であると結論づけています。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu