LLMによる自動短答採点における信頼度推定
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMを用いた自動短答採点(ASAG)において、信頼度を信頼できる形で推定し、人とAIの安全な学習上の意思決定を支援する方法を検討する。
- 「言語化」「潜在表現」「整合性ベース」の3つのモデル由来の信頼度推定手法を比較し、モデル由来の信号だけではASAGの不確実性を十分に捉えられないことを示す。
- モデル由来の信頼度信号に加えて、データセット由来の(アレアトリック)不確実性を明示的に推定するハイブリッド信頼度フレームワークを提案する。
- アレアトリック不確実性は、学生回答を意味的に埋め込んでクラスタリングし、各クラスタ内のばらつき(異質性)を測ることで定義する。
- 結果として、提案手法は単一ソースの手法よりも、信頼度推定の信頼性と選択的採点性能の両方を改善することを示す。



