LLM-as-a-Judgeにおける温度設定の必要性
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM-as-a-Judgeにおいて固定温度を設定する広く用いられている実践を評価し、現在の慣例(しばしば0.1または1.0)が、理論的根拠というよりは経験則に基づく面が大きいことを指摘する。
- 温度によってジャッジの性能が実質的に影響を受け得ること、また低温度が常により良い結果をもたらすわけではないことを主張し、その効果はタスク固有の要因に強く依存すると述べる。
- 著者らは、温度がLLM中心の評価におけるジャッジ性能とどのように関係するかを体系的に定量化するため、制御された実験を実施する。
- さらに、因果推論の枠組みを適用して、温度がジャッジの振る舞いに与える直接的な因果効果を推定し、相関ベースの研究よりも厳密な結論を目指す。
- 本研究は、温度感度を考慮したLLM-as-a-judge評価パイプラインの設計に関する工学的な示唆を提供する。



