頑健な事実性評価のためのPermutation-Consensus Listwise Judging
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、LLMをジャッジとして複数の回答をランキングする「listwise(リストワイズ)事実性評価」における主要な不安定性として、候補の順序に対する感度(candidate-order sensitivity)を特定する。
- 推論時の手法としてPCFJudgeを提案する。これは、候補集合の複数の置換(パーミュテーション)にわたって、同一の「事実性優先」のリストワイズ・プロンプトを繰り返し実行し、スコア、順位、そして不確実性をコンセンサスとして集約する。
- RewardBench 2 Factualityに関する実験により、PCFJudgeは直接ジャッジングと比べて最大で絶対値7ポイント改善できることを示す。
- アブレーション研究では、得られる効果の大部分が、より複雑な仲裁(アービトレーション)機構を追加することではなく、置換コンセンサスそのものに由来することが示される。
- 著者らは、順序に起因する分散が事実性ジャッジングの誤りにとって意味のある寄与因子であること、さらに無関係な提示の変化にわたって平均化することでLLM評価の信頼性を高められることを結論づけている。



