オンライン・推論キャリブレーション：テスト時トレーニングにより汎用的な適合（コンフォーマル）LLM推論を実現

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、適合予測（conformal prediction）とテスト時トレーニングを組み合わせて、推論時にLLMがサンプリングする方法のキャリブレーションを行う Online Reasoning Calibration（ORCA）を提案し、不適合（miscalibration）と計算の非効率性に対処する。
ORCAはメタラーニング手続きを用い、入力ごとにキャリブレーションモジュールを更新することで、推論パターンやプロンプト分布が段階間で、あるいは開発時と展開（デプロイ）時の間で変化した場合でも、より信頼性の高い信頼度推定を可能にする。
適合リスク制御に関する理論的保証（conformal risk control）を提供し、複数の推論タスクにおいて、静的キャリブレーションのベースラインと比べて効率と汎化が実験的に向上することを示す。
δ=0.1において、ORCAは in-distributionタスクで、教師ありラベルでは最大47.5%の節約、自己整合（self-consistency）ラベルでは40.7%の節約により、Qwen2.5-32Bの効率を向上させる。
ゼロショットのドメイン外評価では、MATH-500の節約率を24.8%（静的キャリブレーション）から67.0%へ引き上げつつ、経験的誤差を低く保ち、モデルファミリや下流ベンチマークにわたって一貫した傾向を示す。またコードは公開されている。

AI Business

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Dev.to