オンライン・推論キャリブレーション:テスト時トレーニングにより汎用的な適合(コンフォーマル)LLM推論を実現
arXiv cs.LG / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、適合予測(conformal prediction)とテスト時トレーニングを組み合わせて、推論時にLLMがサンプリングする方法のキャリブレーションを行う Online Reasoning Calibration(ORCA)を提案し、不適合(miscalibration)と計算の非効率性に対処する。
- ORCAはメタラーニング手続きを用い、入力ごとにキャリブレーションモジュールを更新することで、推論パターンやプロンプト分布が段階間で、あるいは開発時と展開(デプロイ)時の間で変化した場合でも、より信頼性の高い信頼度推定を可能にする。
- 適合リスク制御に関する理論的保証(conformal risk control)を提供し、複数の推論タスクにおいて、静的キャリブレーションのベースラインと比べて効率と汎化が実験的に向上することを示す。
- δ=0.1において、ORCAは in-distributionタスクで、教師ありラベルでは最大47.5%の節約、自己整合(self-consistency)ラベルでは40.7%の節約により、Qwen2.5-32Bの効率を向上させる。
- ゼロショットのドメイン外評価では、MATH-500の節約率を24.8%(静的キャリブレーション)から67.0%へ引き上げつつ、経験的誤差を低く保ち、モデルファミリや下流ベンチマークにわたって一貫した傾向を示す。またコードは公開されている。



