CHiL(L)Grader: 校正済みのヒューマン・イン・ザ・ループ短答採点

arXiv cs.CL / 2026/3/13

💬 オピニオンTools & Practical UsageModels & Research

要点

  • CHiL(L)Graderは、較正済みのヒューマン・イン・ザ・ループ採点フレームワークで、不確実性推定と人間のレビューを組み合わせることで、自動短答採点の信頼性を高める。
  • 事後温度スケーリング、信頼度に基づく選択的予測、継続学習を用い、高信頼度の回答のみを自動採点し、不確定なケースは人間の採点者へ振り分ける。
  • 3つの短答データセットで、回答の35–65%を専門家レベルの品質(QWK >= 0.80)で自動採点しており、教育AIにおける不確実性定量化の有効な活用を示している。
  • 各修正サイクルは教師のフィードバックを活用してモデルの採点能力を強化し、進化するルーブリックと未知の質問に適応する。
要旨: 大規模言語モデルを用いた教育評価のスケーリングには、正確さだけでなく、予測が信頼できるかを識別する能力が求められる。指示チューニングされたモデルは過信しがちで、カリキュラムの進化とともに信頼性が低下するため、ハイ・ステークスな環境での完全自動展開を行うことは安全ではない。私たちは、較正済みの信頼度推定をヒューマン・イン・ザ・ループのワークフローに組み込んだ最初の自動採点フレームワークであるCHiL(L)Graderを紹介する。事後温度スケーリング、信頼度に基づく選択的予測、継続学習を用いて、CHiL(L)Graderは高信頼度の予測のみを自動化し、不確定なケースを人間の採点者へ振り分け、進化するルーブリックや未知の質問にも適応する。3つの短答採点データセットにおいて、CHiL(L)Graderは回答の35-65%を専門家レベルの品質(QWK >= 0.80)で自動採点する。受け入れられた予測と却下された予測の間の0.347のQWKギャップは、信頼度ベースのルーティングの有効性を確認している。各修正サイクルは教師のフィードバックから学ぶことでモデルの採点能力を強化する。これらの結果は、不確実性の定量化が信頼性の高いAI支援採点の鍵であることを示している。