継続学習におけるAdam下での勾配修正の隠れた失敗モードと、修復としての適応的デカップルド・モーメント・ルーティング

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、上流で勾配を修正する継続学習手法がAdamを「中立なバックエンド」とみなす場合に、見落とされがちな失敗モードが起きることを示し、高重なりのドメイン系列でほぼ崩壊に近い挙動が発生することを報告しています。
8ドメインの継続学習LMでは、共有ルーティングの射影ベースラインがバニラの忘却に近い性能となり、0.5%のリプレイバッファを入れても改善は限定的で、固定強度のデカップリングはバニラより悪化する場合があると述べています。
著者らは原因をAdamの第2モーメント経路に求め、射影が古い方向の勾配の実効学習率を約1/(1-alpha)倍にインフレートすることで矛盾が生じ、クリーンなベンチマークではこの影響が見えにくいと説明しています。
提案手法「Adaptive Decoupled Moment Routing（適応的デカップルド・モーメント・ルーティング）」は、修正した勾配をAdamの第1モーメントにのみルーティングし、第2モーメント統計は大きさに忠実に保つことで解決を図ります。
16ドメインの設定や、約7B規模でのLoRAなどの条件でも、崩壊を一貫して回避し、共有ルーティングの最強ベースラインより大きな改善を示したのはこのルーティング構成だけだと結論づけています。

要旨: 多くの継続学習（continual-learning）手法は、Adamを中立的なバックエンドとして扱いながら、勾配を上流で修正します（例：射影、ペナルティの再スケーリング、リプレイ混合）。しかし、この合成には隠れた失敗モードがあることを示します。高い重なり（overlap）を持つ、非適応的な8ドメインの継続学習（continual）大規模言語モデル（LM）において、共有ルーティング射影（shared-routing projection）のベースラインは、すべてバニラの忘却（vanilla forgetting）に近い値へと崩壊します（12.5--12.8 対 13.2）。0.5%のリプレイバッファは最も強い共有代替案ですが、それでも 11.6 に留まります。一方、固定強度のデカップリング（fixed-strength decoupling）はバニラを下回り 14.1 となります。適応的デカップルド・ルーティング（adaptive decoupled routing）だけが安定して 9.4 を達成し、バニラより3.8ユニット改善します。16ドメインのストリームでは、最強の共有ルーティング射影ベースラインに対するその利得は 4.5--4.8 ユニットまで拡大します。この失敗は、クリーンなベンチマーク上ではほとんど見えません。
我々は、この効果を Adam の第2モーメント経路によって説明します。検証した条件では、射影により古い方向の実効学習率が 1/(1-alpha) だけインフレ（膨張）し、この値は8つのalphaの範囲で測定結果と8%以内で一致します。同様の衝突は、ペナルティ手法、リプレイ混合、およびLoRAの下での7Bスケールでも現れます。我々の修正は、修正された勾配を第1モーメントのみにルーティングしつつ、大きさに忠実な（magnitude-faithful）第2モーメント統計量を維持することで行います。重なり（overlap）を考慮した適応的な強度を用います。この単純な変更は、方法、オプティマイザ、スケールのいずれにおいても崩壊を一貫して回避することが、テストされた構成の中で唯一のものです。