驚きによって学び、証明によってコミットする

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、トークンごとの損失が異常に高い場合にのみ学習を発火させる自己ゲート型のポストトレーニング手法であるLSCPを提案する。これは、モデルが必要な情報を欠いている可能性を示す。
LSCPは外部のオラクルに依存せず、内部のQ&Aチェーンによって自己検証を強制し、知識のギャップを明確に言語化する。また、「conviction depth（確信の深さ）」にスケールしたAdamWのβ2により、オプティマイザ挙動を調整する。
学習強度は単一のパラメータrで制御され、この手法は自己消火型（self-extinguishing）であると説明される。すなわち、学習済みの通過（パッセージ）に対してモデルが改善すると、重い更新を続けるのではなく標準のAdamWへ収束していく。
Qwen3-14Bと6つのモデルファミリ（8B〜32B）に対する実験では、標準的なファインチューニングが暗記（ロートメモリゼーション）を招く一方で、LSCPはより意味的な学習を条件付けて行い、ゲーティングが近傍の知識を保護するのに役立つと報告される。
著者らは、このメカニズムを生物学的な記憶の固定化（メモリコンソリデーション）の計算機的な類推として位置付け、訓練中に一時的な文脈情報を、より安定したパラメトリック知識へと変換する。