概要: 継続学習(continual learning)とは、モデルが過去のタスクを忘れることなく、進行中のタスク列に適応する能力であり、人工知能における中心的な目標である。本質的なメカニズムをよりよく理解するために、我々は、扱いやすいが代表性のある設定において継続学習の限界を研究する。具体的には、ガウス雑音を伴う XOR クラスタデータセットの系列に対して勾配降下法で学習された、1 隠れ層の二次ニューラルネットワークを解析する。ここで異なるタスクは、直交する平均をもつクラスタに対応する。我々の解析は、訓練損失に対する勾配降下法のダイナミクスを、きわめて厳密に特徴付けることに基づいており、反復回数、サンプルサイズ、タスク数、隠れ層の幅の関数として、訓練時忘却(train-time forgetting)の速度に関する明示的な上界を得る。次に、アルゴリズム的安定性の枠組みを活用して一般化ギャップを抑えることで、テスト時忘却(test-time forgetting)に対する対応する保証を導く。これらの結果により、ニューラルネットワークを用いた継続学習における忘却について、初めての閉形式の保証が提示され、重要な問題パラメータが忘却ダイナミクスをどのように共同で支配するかが示される。数値実験は理論結果を裏付ける。
ニューラルネットワークにおける勾配降下を用いた継続学習の理論について
arXiv stat.ML / 2026/4/21
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、過去のタスクを忘れずにタスク列へ適応する「継続学習」を、勾配降下で学習する1隠れ層の2次ニューラルネットワークという扱いやすい設定で解析する。
- XORクラスターデータセットをガウスノイズ付きで連続学習し、各タスクを直交する平均を持つクラスタに対応づけることで、勾配降下の学習ダイナミクスを明示的に特徴付ける。
- 学習時の忘却率について、反復回数、サンプルサイズ、タスク数、隠れ層の幅に依存する「タイト」な閉形式の上界を導出する。
- アルゴリズム的安定性の枠組みにより一般化ギャップも評価し、その結果をテスト時の忘却保証へと結び付ける。
- 数値実験が理論の予測を裏付け、主要な問題パラメータが忘却挙動にどう影響するかを示す。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA