安全ベンチマークの判断指標は評価設定(ジャッジの構成)にどれほど敏感か?
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、HarmBenchのような安全ベンチマークにおけるLLMジャッジの設定(ジャッジモデル+ジャッジプロンプト)を固定の実装詳細として扱うべきではないと指摘しています。
- 因子計画により、評価構造と指示の組み立て方の2軸に沿って12種類のジャッジプロンプトを作成し、Claude Sonnet 4-6を1つのジャッジモデルとして6つの対象モデルと400のHarmBench行動に対して28,812件の判断を行いました。
- ジャッジモデルを固定したままプロンプトの文言だけを変えると、有害回答率の測定値が最大24.2ポイント変動し、同一条件内の表現の微細な言い換えでも最大20.1ポイントの振れが生じることが分かりました。
- 安全性ランキングは中程度に不安定で、平均Kendallのτは0.89でした。またカテゴリーごとの感度は39.6ポイント(著作権)から0ポイント(ハラスメント)まで幅があることが示されました。
- 補足実験として3種類のジャッジモデルを用いると、ジャッジモデルの選択がさらに分散を生むことも確認され、ジャッジのプロンプト文言が安全ベンチマークの計測ばらつきに大きく影響する、これまで十分に検討されていない要因であると結論づけています。



