Generalized Power Mean による温度制御付き判定集約を用いた AI システム評価における適応的な厳密さ
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的な LLM 評価手法(例:LLM-as-a-judge、判定システム、NLI)が、領域間で厳密さを固定して用いるため、人間の判断と整合しない可能性があると主張する。
- 温度制御付き判定集約(TCVA)を提案し、一般化されたパワー平均プーリングと温度パラメータ T(0.1〜1.0)により、5段階の判定スコアを集約する。
- 著者らは、低い温度は悲観的で、安全性重視の評価に適したスコアを生み出し、高い温度は会話型やユーザー向けの設定でより寛容な評価をもたらすと位置づける。
- SummEval および USR に対して、人間のリッカート(Likert)注釈を用いた実験を行い、TCVA が忠実性(faithfulness)に関して RAGAS と同等のレベルで人間の判断と相関することを示す(Spearman 0.667 対 0.676)とともに、DeepEval よりも優れていることを報告する。
- 重要な効率性の主張として、TCVA は厳密さを調整する際に追加の LLM 呼び出しを必要とせず、温度パラメータを変更できるため評価コストを削減できる点を挙げている。
