Generalized Power Mean による温度制御付き判定集約を用いた AI システム評価における適応的な厳密さ

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般的な LLM 評価手法(例:LLM-as-a-judge、判定システム、NLI)が、領域間で厳密さを固定して用いるため、人間の判断と整合しない可能性があると主張する。
  • 温度制御付き判定集約(TCVA)を提案し、一般化されたパワー平均プーリングと温度パラメータ T(0.1〜1.0)により、5段階の判定スコアを集約する。
  • 著者らは、低い温度は悲観的で、安全性重視の評価に適したスコアを生み出し、高い温度は会話型やユーザー向けの設定でより寛容な評価をもたらすと位置づける。
  • SummEval および USR に対して、人間のリッカート(Likert)注釈を用いた実験を行い、TCVA が忠実性(faithfulness)に関して RAGAS と同等のレベルで人間の判断と相関することを示す(Spearman 0.667 対 0.676)とともに、DeepEval よりも優れていることを報告する。
  • 重要な効率性の主張として、TCVA は厳密さを調整する際に追加の LLM 呼び出しを必要とせず、温度パラメータを変更できるため評価コストを削減できる点を挙げている。

Abstract

LLMベースのAIシステムに対する既存の評価手法、たとえばLLM-as-a-Judge、評決システム、NLIなどは、適用領域に応じて厳密さを調整できないため、人間による評価と必ずしもよく一致しません。本論文では、5段階の評決スコアリング体系と、一般化されたパワー平均(power-mean)による集約、ならびに評価の厳密さを制御する直感的な温度パラメータT [0.1, 1.0]を組み合わせた Temperature-Controlled Verdict Aggregation(TCVA)を提案します。低い温度では、安全性が重要な領域に適した悲観的なスコアが得られます。一方、高い温度では、対話型AIに適した寛容なスコアが得られます。人間のリッカート尺度による注釈を用いた3つのベンチマークデータセット(SummEvalとUSR)での実験評価により、TCVAは忠実性においてRAGASと同等の人間判断との相関(Spearman = 0.667 vs. 0.676)を達成しつつ、常にDeepEvalを上回ることが示されます。この手法は、温度パラメータを調整する際に追加のLLM呼び出しを必要としません。