ルーブリックに基づく大規模言語モデルの評価における自己嗜好バイアス

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM-as-a-judgeシステムにおいて、審査員が総合点や順位ではなく各観点ごとに二値の判定を行う「ルーブリックベース評価」を用いた場合に、自己嗜好バイアス(SPB)が生じるかを調査する。
  • 著者らは、プログラム的に検証可能(客観的)なルーブリックを用いたIFEvalにより、SPBが依然として起こることを見出す。すなわち、生成側が失敗した場合でも、審査員が自分の出力をルーブリックを満たすと誤って判定する頻度が、最大で約50%増加しうる。
  • 研究では、複数の審査員をアンサンブルすることでSPBは低減するものの、完全には解消されないことが示されており、このバイアスが単純な集約に対して頑健であることが示唆される。
  • 主観的なルーブリックを用いる医療ベンチマークHealthBenchでは、SPBによりモデルのスコアが最大10点ほど歪む可能性があり、最前線モデル間のランキングに実質的な影響を与えうる。
  • 著者らは、ルーブリック設定におけるSPBの主要な要因として、否定的なルーブリック、極端に長いルーブリック長、緊急紹介などの主観的なトピックを含むことを特定している。