Continual Calibration：生涯にわたるLLM微調整で「精度」より先に「カバレッジ」が崩壊する

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、生涯/継続的なLLM微調整の評価を「精度の保持」だけに頼るのは不十分で、不確実性の信頼性（カバレッジ）がトップ1性能よりも前倒しで、かつより急激に悪化し得ると主張しています。
3つのモデルファミリーと8つの連続タスク系列に対する実験では、カバレッジの損失が平均で精度損失より約3.4倍大きく、例えばカバレッジが0.92から0.61へ低下しても精度はベースラインから約3ポイント以内にとどまるケースが示されました。
精度を保つことを目的とした標準的な継続学習手法は、必ずしもコンフォーマルなカバレッジまで維持できず、単純な校正ベースラインでもギャップの一部しか埋められないことが分かります。
そこで著者らは「calibration replay」を提案します。これは、タスク別の小さなホールドアウトバッファを保持し、各更新後に現在のモデルでタスク別のコンフォーマル閾値を再フィットする軽量なポストホック手法で、学習時の勾配コストを追加せず、通常の経験リプレイよりメモリ使用量も1%未満で、バッファサイズm=200でカバレッジを公称値から2ポイント以内に回復させることが多いとされています。
さらに、ドリフト分解や、交換可能性の下での正確なコンフォーマル有効性を示す有限サンプル保証、プールした閾値だけでは不十分な理由を説明する混合妥当性命題など理論的裏付けも示されており、オープンエンド生成への拡張は探索的段階とされています。

要旨: 大規模言語モデルに対する継続学習は、通常、逐次的な微調整における精度の保持（accuracy retention）によって評価されます。私たちは、この見方は不完全だと主張します。というのも、不確実性の信頼性（uncertainty reliability）は、トップ1の性能（top-1 performance）よりも前から、かつより鋭く劣化し得るからです。私たちはこれを実証的に調べ、3つのモデルファミリーと、主に分類および多肢選択のベンチマークから引いた8つのタスク系列にわたって、逐次微調整されたモデル上で、共形（conformal）のカバレッジとキャリブレーション誤差を測定しました。私たちが調べた分類スタイルの設定では、平均においてカバレッジ損失は精度損失を約 \(3.4\times \pm 0.5\times\) の倍率で上回ります。最も顕著な場合には、カバレッジは \(0.92\) から \(0.61\) に低下する一方で、精度はベースラインから3ポイント以内に留まります。精度を保持することを目的とした標準的な継続学習手法は、カバレッジを自動的には保持しません。また、単純なキャリブレーションのベースラインでは、そのギャップの一部しか回復できません。そこで私たちは、キャリブレーション・リプレイ（calibration replay）という軽量な事後（post-hoc）手続を提案します。これは、タスク固有の保持用バッファを維持し、各更新の後に現在のモデルのもとでタスク固有の共形閾値（conformal threshold）を再調整（refit）します。学習時の勾配計算コストは追加せず、通常の経験リプレイのメモリ使用量の1%未満で済み、一般に、バッファサイズ \(m = 200\) で公称値（nominal）に対してカバレッジを2ポイント以内まで回復します。私たちは、実証研究に加えてドリフトの分解（drift decomposition）と、交換可能性（exchangeability）の下での厳密な共形妥当性（exact conformal validity）を示す有限標本回復定理、さらに、プールした閾値ではなぜ不十分なのかを説明する混合妥当性（mixture-validity）の命題を添えています。保証は、タスク固有バッファを用いる分類スタイルのタスクに対して述べます。開放端の生成（open-ended generation）への拡張は探索的です。