LLM-as-a-Judgeにおける温度設定の必要性

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLM-as-a-Judgeにおいて固定温度を設定する広く用いられている実践を評価し、現在の慣例（しばしば0.1または1.0）が、理論的根拠というよりは経験則に基づく面が大きいことを指摘する。
温度によってジャッジの性能が実質的に影響を受け得ること、また低温度が常により良い結果をもたらすわけではないことを主張し、その効果はタスク固有の要因に強く依存すると述べる。
著者らは、温度がLLM中心の評価におけるジャッジ性能とどのように関係するかを体系的に定量化するため、制御された実験を実施する。
さらに、因果推論の枠組みを適用して、温度がジャッジの振る舞いに与える直接的な因果効果を推定し、相関ベースの研究よりも厳密な結論を目指す。
本研究は、温度感度を考慮したLLM-as-a-judge評価パイプラインの設計に関する工学的な示唆を提供する。

Abstract

LLM-as-a-Judge（LLMを審査員として用いること）は、テキストの品質および事実の正確さを評価するための効果的で低コストなパラダイムとして登場している。先行研究では、LLMの審査員と人間の専門家の間で大きな一致が見られることが示されてきた。自動的に評価するのが難しい課題であっても同様である。実務において研究者は、評価プロセス中に固定した温度設定を用いることが一般的であり、0.1および1.0が最も多い選択肢である。この慣習は、原理に基づくというよりは、主として経験的なものになっている。ところが近年の研究では、LLMの性能が温度設定に対して無視できない感度を示すこと、低い温度が常に最適な結果をもたらすわけではないこと、そしてこうした効果が非常に課題依存的であることが示唆されている。これにより、重要な研究課題が浮上する。すなわち、温度はLLM中心の評価における審査員の性能に影響を与えるのだろうか。本研究では、この問いに答えるために、制御された一連の実験を通じて温度と審査員の性能の関係を体系的に調査する。さらに、経験的な統計分析の中で因果推論の枠組みを採用し、温度が審査員の挙動に与える直接的な因果効果を厳密に検討する。その結果、LLM中心の評価パイプラインの設計に役立つ実行可能なエンジニアリング上の知見を提供する。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

LLM-as-a-Judgeにおける温度設定の必要性

要点

Abstract

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer