確実性の錯覚：オンポリス・ディスティレーションにおける能力とキャリブレーションの分離

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オンポリシー蒸留（OPD）において「ミキャリブレーションのスケーリング則」が成り立ち、タスク精度は向上する一方でモデルが系統的に過度な自信（過信）を示すことを指摘している。
失敗の根本原因は、情報の不一致だとして説明される。すなわち、教師は訓練時に利用可能な特権的（privileged）文脈で監督信号を作るが、実運用ではモデルは配備時の情報だけで自信を報告しなければならない。
著者らは、教師条件付きの成功が配備時の自信を学習する目標として一般には妥当でないことを理論的に形式化し、特権文脈がエントロピー崩壊と楽観バイアスを誘発し得ることを示す。
この課題に対して、CaOPD（calibration-aware OPD）を提案する。具体的には、モデルのロールアウトから経験的な自信を推定し、自己申告の自信を学生に基づくターゲットへ置き換えて同じ自己蒸留パイプラインで蒸留する。
複数のモデルと領域にわたる実験では、CaOPDが能力を競争力ある水準で維持しつつ、キャリブレーション面で強い改善（Pareto-optimal）を達成し、分布外や継続学習でも頑健に一般化することが示される。