LLMによる自動短答採点における信頼度推定

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMを用いた自動短答採点(ASAG)において、信頼度を信頼できる形で推定し、人とAIの安全な学習上の意思決定を支援する方法を検討する。
  • 「言語化」「潜在表現」「整合性ベース」の3つのモデル由来の信頼度推定手法を比較し、モデル由来の信号だけではASAGの不確実性を十分に捉えられないことを示す。
  • モデル由来の信頼度信号に加えて、データセット由来の(アレアトリック)不確実性を明示的に推定するハイブリッド信頼度フレームワークを提案する。
  • アレアトリック不確実性は、学生回答を意味的に埋め込んでクラスタリングし、各クラスタ内のばらつき(異質性)を測ることで定義する。
  • 結果として、提案手法は単一ソースの手法よりも、信頼度推定の信頼性と選択的採点性能の両方を改善することを示す。

Abstract

生成型大規模言語モデル(LLM)による自動短答採点(ASAG)は、タスク固有の微調整なしでも強い性能を示し、さらに教育的評価のための合成フィードバックの生成も可能にしていることが、最近になって示されました。これらの進展にもかかわらず、LLM に基づく採点はいまだ不完全であるため、教育における意思決定で人間とAIの協調を安全かつ効果的に行うには、信頼(コンフィデンス)の信頼できる推定が不可欠です。本研究では、モデルに基づく信頼度の信号と、データセットから得られる不確実性を共同で考慮することで、LLM による ASAG における信頼度推定を調査します。具体的には、言語化に基づく、潜在表現に基づく、整合性に基づく、という3つのモデルベースの信頼度推定戦略を体系的に比較し、モデルベースの信頼度だけでは ASAG における不確実性を信頼性よく捉えるには不十分であることを示します。この制約に対処するために、モデルベースの信頼度信号と、データセット由来のアレアトリック(観測ノイズに起因する)不確実性の明示的な推定とを統合する、ハイブリッドな信頼度フレームワークを提案します。アレアトリック不確実性は、意味的に埋め込まれた学生の回答をクラスタリングし、クラスタ内のばらつき(不均一性)を定量化することで運用化します。提案したハイブリッドな信頼度指標は、単一の情報源に基づく方法と比べてより信頼性の高い信頼度推定をもたらし、選択的採点の性能も向上させることを、実験結果が示しています。総じて、本研究は、人間が介在する評価のための、信頼度を考慮した LLM による採点を前進させ、より信頼できるAI支援による教育的評価システムの実現を支援します。