単一モデルの最適化を超えて:継続的強化学習におけるプラスティシティの維持
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 継続的強化学習では「単一モデル保存」に依存しがちですが、成功した方策であっても干渉後には素早い適応のための信頼できる出発点にならず、プラスティシティの喪失が起き得ると指摘しています。
- 提案手法TeLAPA(Transfer-Enabled Latent-Aligned Policy Archives)は、タスクごとに行動の多様性をもつ方策近傍をアーカイブし、共有潜在空間によってアーカイブ方策を非定常な変化下でも比較・再利用可能にします。
- 主眼は、孤立した方策を保持することから、スキルに整合した近傍(有能で行動的に関連する複数の代替案)を維持して将来の再学習を支えることへと転換されます。
- MiniGridの継続学習設定で、TeLAPAはより多くのタスクを学習でき、干渉後に再訪タスクでの能力回復が速くなり、タスク系列を通じた性能も高く保ちます。
- 分析では、局所的な「有能な近傍」内でもソース最適な方策が必ずしも転移最適とは限らず、単一の代表へ潰すのではなく近傍の複数候補を保持・選択することが再利用の鍵だと示しています。



