驚きによって学び、証明によってコミットする

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トークンごとの損失が異常に高い場合にのみ学習を発火させる自己ゲート型のポストトレーニング手法であるLSCPを提案する。これは、モデルが必要な情報を欠いている可能性を示す。
  • LSCPは外部のオラクルに依存せず、内部のQ&Aチェーンによって自己検証を強制し、知識のギャップを明確に言語化する。また、「conviction depth(確信の深さ)」にスケールしたAdamWのβ2により、オプティマイザ挙動を調整する。
  • 学習強度は単一のパラメータrで制御され、この手法は自己消火型(self-extinguishing)であると説明される。すなわち、学習済みの通過(パッセージ)に対してモデルが改善すると、重い更新を続けるのではなく標準のAdamWへ収束していく。
  • Qwen3-14Bと6つのモデルファミリ(8B〜32B)に対する実験では、標準的なファインチューニングが暗記(ロートメモリゼーション)を招く一方で、LSCPはより意味的な学習を条件付けて行い、ゲーティングが近傍の知識を保護するのに役立つと報告される。
  • 著者らは、このメカニズムを生物学的な記憶の固定化(メモリコンソリデーション)の計算機的な類推として位置付け、訓練中に一時的な文脈情報を、より安定したパラメトリック知識へと変換する。