広告

LLMグレーダーはいつ信頼できるのか?自動評価のための信頼度(コンフィデンス)校正

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMグレーダーによる自動採点が正しい可能性(確率)を予測することで、いつ自動採点を信頼できるかを扱い、信頼度が低いケースでは人手によるレビューを行う選択的自動化を可能にすることを目的としている。
  • 7つのLLM(4B〜120B)を対象に、3つの信頼度推定アプローチ――自己申告による信頼度、自己整合(self-consistency)にもとづく投票、トークン確率――を3種類の教育用採点データセットで評価する。
  • 自己申告による信頼度は全体として最も良好に校正でき、自己整合(self-consistency)よりも平均ECEが低く(計算コストが高いにもかかわらず)優れている。
  • より大規模なモデルほど概して良く校正され、GPT-OSS-120Bが最良の平均校正(平均ECE 0.100)と意味のある識別(平均AUC 0.668)を達成する。
  • 著者らは、信頼度スコアが手法を問わず強く上方向に歪んでおり、その結果として実務者が採点のしきい値を設定する際に考慮すべき「信頼度フロア(confidence floor)」が生じることを見出している。

Abstract

大規模言語モデル(LLM)は自動採点に対して有望ですが、その出力は信頼性に欠けることがあります。採点精度を直接的に向上させるのではなく、補完的な課題として\textit{LLM採点者が正しい可能性が高いタイミングを予測すること}に取り組みます。これにより、確信度の高い予測は自動処理し、疑わしいケースは人間の確認のためにフラグを立てる選択的自動化が可能になります。私たちは、7つの規模の異なるLLM(4B〜120Bパラメータ)に対して、3つの教育データセット(RiceChem:長文回答の化学、SciEntsBank、Beetle:短文回答の科学)で、3つの確信度推定手法(自己申告の確信度、自立整合(self-consistency)による投票、トークン確率)を比較しました。実験の結果、自己申告の確信度が、すべての条件において一貫して最良の校正(calibration)を達成することが分かりました(自己申告:平均ECE 0.166、自己整合:平均ECE 0.229)。驚くべきことに、自己整合は推論コストが5\times必要であるにもかかわらず、なお38%も悪化します。より大きなモデルは、データセットや手法によって得られる改善は異なるものの、全体として大幅に優れた校正を示します(例えば、自己申告ではECEが28%減少)。GPT-OSS-120Bは最良の校正(平均ECE 0.100)と強い識別力(平均AUC 0.668)を達成しました。さらに、確信度は手法間で強く右に歪んでおり、実務者が閾値設定時に考慮すべき「\textit{confidence floor}(確信度の下限)」が生じることも観察されました。これらの結果は、LLMに単に自分の確信度を報告させるだけで、信頼できる採点予測を特定するための実用的なアプローチが得られることを示唆しています。コードは\href{https://github.com/sonkar-lab/llm_grading_calibration}{こちら}で入手可能です。

広告