自己整合性(self-consistency)を言語的な確信度(verbal confidence)へ蒸留する:Gemma 3 4Bにおける事前登録済みの否定的結果と事後的リカバリー

arXiv cs.CL / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、小規模の指示追従型LLMが最小の問いかけで“言語的な確信度”を劣化させる問題を扱い、CSFT(confidence-conditioned supervised fine-tuning)によって内部情報と発話としての確信度を一致させられるかを検証している。
  • 事前登録済みのPhase 0実験として、Gemma 3 4B-itでモーダル・フィルタ(正しいモーダル回答の項目だけを学習)を用いたところ、生成ターゲットのラベルエントロピーが崩壊し、AUROC2が0.554から0.509へ低下するという否定的結果に終わった。
  • その後、事後的な“リカバリー”としてフィルタを外し、校正用2,000件すべてで学習すると、TriviaQAの保持データでバイナリの言語的正解識別器がAUROC2=0.774まで改善し、複数サンプルの自己整合性シグナルを1回の読み出しへ圧縮できた。
  • シャッフルしたターゲットでは改善が見られず、さらにMMLUでも精度が大幅に向上したことから、効果がターゲットの質や構造に依存することが示唆された。
  • 著者らはこの結果を探索的で単一スケールに限定されるものとしつつ、「確信度学習には十分なラベルエントロピーが必要」「正しいターゲットが出力形式の正則化に寄与する」という2つの設計教訓を提示している。