小規模言語モデルは自分が間違いだと分かるのか？自信度カスケードスコアリングによる教育評価

arXiv cs.CL / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

大規模な自動採点では、カスケード方式（小規模LMが容易な問題を担当し、難しい問題を大規模LMへエスカレーションする）でコストとレイテンシを下げられるが、エスカレーションには信頼度（コンフィデンス）に基づく適切な判断が必要だ。
本研究では、数値的な自信度を予測とともにLMに発話させる「言語化した自信度」をルーティング指標として評価し、学生–AIの数学会話からの専門家採点2,100件と、GPT-5.4／Claude 4.5+／Gemini 3.1のモデル組み合わせで検証する。
小規模LMごとにコンフィデンスの質は大きく異なり、最良はAUROC 0.857を達成する一方、最悪はほぼ退化した分布となり、良いルーティングを成立させられない。
LMの自信度が低いケースは、人間の採点難度と相関し、人間のアノテータ間で意見が割れたり、採点により長い時間がかかったりする問題で自信度が下がる。
自信度の識別力が高い場合、カスケードは大規模LMに近い精度（kappa 0.802 vs. 0.819）を実現しつつ、コストを76%削減しレイテンシを61%削減できるが、自信度が弱い／退化している場合は閾値を変えても精度ギャップを埋められない。

アブストラクト: 大規模に学生の課題を自動採点するには、正確さとコスト、レイテンシーのバランスを取る必要があります。いわゆる「カスケード」システムでは、小型言語モデル（LM）が容易な採点タスクを担当し、難しいものはより大きなLMへエスカレーションします。しかし課題は、どのケースをエスカレーションすべきかを判断することです。本研究では、言語化された確信度――予測とともに数値の確信度をLMに表明させること――をルーティング信号として探ります。学生とAIの数学会話から得た、専門家による2,100件の採点済み意思決定を用いて、GPT-5.4、Claude 4.5+、Gemini 3.1のモデル・ペアで構築したカスケード・システムを評価します。その結果、(1) 確信度の識別力は小型LM間で大きくばらつき、最良ではAUROC 0.857、最悪ではほぼ退化した確信度分布が得られること、(2) 確信度は人間の採点の難しさに追随し、注釈者の間で意見が分かれたケースや、採点により時間がかかったケースではLMの確信度が低くなること、(3) 最良のカスケードは、大型LMの正確さに接近したこと（kappa 0.802 vs. 0.819）に加え、コストが76%低く、レイテンシーが61%低いこと、を見出しました。確信度の識別がボトルネックです。意味のある確信度のばらつきを持つ2つの小型LMでは、統計的に検出可能なkappaの低下なしにカスケードが成立しました。一方、確信度がほぼ退化していた3つ目の小型LMは、どの閾値を用いても精度ギャップを埋められませんでした。確信度の識別が強い小型LMは、実務者がコストと精度をフロンティア上でトレードオフできる一方、それがない場合はできません。