正解ラベル不要の正確性シグナルとしてのモデル間不一致

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、言語モデルの回答が誤りであるときのラベルフリー検出を扱い、一般的な不確実性シグナルが「確信を持った誤り(confident errors)」のもとでは失敗し得ることを示している。
  • 訓練なしで正確性の指標として、2つ目の検証モデルにより、最初のモデルが生成した回答を1回のフォワードパスでスコアリングさせることで、モデル間不一致を提案する。
  • 2つの指標を具体化する:Cross-Model Perplexity(CMP)とCross-Model Entropy(CME)。いずれも、検証モデルの生成や正解ラベル(ground-truth correctness labels)を必要とせずに算出される。
  • 推論、検索、数学のベンチマーク(MMLU、TriviaQA、GSM8K)にわたる実験で、CMPおよびCMEは、同一モデル内の不確実性ベースラインを上回る。例えば、MMLUにおいてCMPはAUROC 0.75を達成し、ベースラインは0.59であった。
  • 著者らは、この手法がルーティング、モニタリング、選択的予測、データフィルタリング、言語モデルシステムの大規模な監督(scalable oversight)などのために、プロダクションの処理パイプラインへ直接統合できると主張している。