継続学習へのより高速な道

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 連続学習(Continual Learning)で、C-Flatは新旧タスクの両方に対して一様に低損失な領域を促す有望な最適化手法だが、各イテレーションで追加の勾配計算が3回必要になり計算コストが課題になっている。
  • 本論文は、C-Flat Turboという改良オプティマイザを提案し、一
  • 次(first-order)平坦性に関する勾配が方向不変成分を含むことを利用して、冗長な勾配計算を省略できる点を示している。
  • さらに、平坦性を促す勾配がタスクを追うごとに安定化していく観察結果から、線形スケジューリングと適応的なトリガーを用いて後半タスクほど大きい“turbo steps”を割り当てる戦略を導入している。
  • 実験では、C-Flat Turboが幅広いCL手法の範囲でC-Flatより1.0倍〜1.25倍高速で、精度は同等または改善となることを報告している。

概要: 連続学習(CL)は、既に学習した知識を忘れないまま、タスクの動的なストリームに対してニューラルネットワークを学習することを目的とします。最適化ベースのアプローチの中でも、C-Flatは、プラグアンドプレイとして利用できる点と、新旧のタスクの両方に対して一様に低い損失領域を促す能力がある点から、有望な解決策として登場しました。しかし、C-Flatは反復ごとに追加で3回の勾配計算を必要とし、最適化プロセスに大きなオーバーヘッドを課します。本研究では、訓練コストを大幅に削減しつつ、より高速でありながら強力なオプティマイザであるC-Flat Turboを提案します。一次のフラットネスに関連する勾配には、プロキシモデルの勾配に対して方向不変な成分が含まれることを示し、そのため、摂動を加えた上昇ステップにおいて冗長な勾配計算を省略できることを明らかにします。さらに、フラットネスを促進する勾配がタスクをまたいで段階的に安定化していくことを観察し、後続タスクに対してより大きなターボステップを割り当てるための、適応的なトリガーを伴う線形スケジューリング戦略を動機づけます。実験の結果、C-Flat Turboは幅広いCL手法の範囲においてC-Flatよりも1.0\timesから1.25\times高速である一方、同等、あるいは改善された精度を達成することが示されます。