Abstract
大規模言語モデル(LLM)は自動採点に対して有望ですが、その出力は信頼性に欠けることがあります。採点精度を直接的に向上させるのではなく、補完的な課題として\textit{LLM採点者が正しい可能性が高いタイミングを予測すること}に取り組みます。これにより、確信度の高い予測は自動処理し、疑わしいケースは人間の確認のためにフラグを立てる選択的自動化が可能になります。私たちは、7つの規模の異なるLLM(4B〜120Bパラメータ)に対して、3つの教育データセット(RiceChem:長文回答の化学、SciEntsBank、Beetle:短文回答の科学)で、3つの確信度推定手法(自己申告の確信度、自立整合(self-consistency)による投票、トークン確率)を比較しました。実験の結果、自己申告の確信度が、すべての条件において一貫して最良の校正(calibration)を達成することが分かりました(自己申告:平均ECE 0.166、自己整合:平均ECE 0.229)。驚くべきことに、自己整合は推論コストが5\times必要であるにもかかわらず、なお38%も悪化します。より大きなモデルは、データセットや手法によって得られる改善は異なるものの、全体として大幅に優れた校正を示します(例えば、自己申告ではECEが28%減少)。GPT-OSS-120Bは最良の校正(平均ECE 0.100)と強い識別力(平均AUC 0.668)を達成しました。さらに、確信度は手法間で強く右に歪んでおり、実務者が閾値設定時に考慮すべき「\textit{confidence floor}(確信度の下限)」が生じることも観察されました。これらの結果は、LLMに単に自分の確信度を報告させるだけで、信頼できる採点予測を特定するための実用的なアプローチが得られることを示唆しています。コードは\href{https://github.com/sonkar-lab/llm_grading_calibration}{こちら}で入手可能です。