単一モデルの最適化を超えて:継続的強化学習におけるプラスティシティの維持

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 継続的強化学習では「単一モデル保存」に依存しがちですが、成功した方策であっても干渉後には素早い適応のための信頼できる出発点にならず、プラスティシティの喪失が起き得ると指摘しています。
  • 提案手法TeLAPA(Transfer-Enabled Latent-Aligned Policy Archives)は、タスクごとに行動の多様性をもつ方策近傍をアーカイブし、共有潜在空間によってアーカイブ方策を非定常な変化下でも比較・再利用可能にします。
  • 主眼は、孤立した方策を保持することから、スキルに整合した近傍(有能で行動的に関連する複数の代替案)を維持して将来の再学習を支えることへと転換されます。
  • MiniGridの継続学習設定で、TeLAPAはより多くのタスクを学習でき、干渉後に再訪タスクでの能力回復が速くなり、タスク系列を通じた性能も高く保ちます。
  • 分析では、局所的な「有能な近傍」内でもソース最適な方策が必ずしも転移最適とは限らず、単一の代表へ潰すのではなく近傍の複数候補を保持・選択することが再利用の鍵だと示しています。

Abstract

継続的強化学習では、保持(retention)と適応(adaptation)の両立が必要ですが、多くの手法は依然として mph{単一モデルの保存(single-model preservation)} に依存しており、タスク間で主たる再利用解として、1つの進化する方策にコミットしてしまいます。以前に成功した方策を保持していたとしても、それは干渉後の急速な適応のための信頼できる出発点にならないことがあり、単一方策の保存では対処できない mph{可塑性の喪失(loss of plasticity)} の一形態を反映しています。質と多様性(quality-diversity)に着想を得て、我々は extsc{TeLAPA}(Transfer-Enabled Latent-Aligned Policy Archives, 転移を可能にする潜在整合方策アーカイブ)を提案します。これは、行動的に多様な方策近傍をタスクごとのアーカイブに整理し、共通の潜在空間を維持することで、非定常なドリフト下でもアーカイブされた方策が比較可能で再利用可能なままでいられるようにする、継続的RLの枠組みです。この観点により、継続的RLは、孤立した解を保持することから、将来の再学習を支える有能で行動的に関連した方策を含む mph{スキル整合近傍(skill-aligned neighborhoods)} を維持することへと転換されます。MiniGrid の CL 設定において、 extsc{TeLAPA} はより多くのタスクを成功裏に学習し、干渉後に再訪したタスクではより速く有能さを回復し、タスク系列を通してより高い性能を維持します。我々の分析では、局所的な有能近傍の範囲でさえ、ソース最適方策がしばしば転移最適ではないこと、そして効果的な再利用には、それらを1つの代表へ潰し込むのではなく、複数の近傍候補を保持し選択することが必要であることが示されています。これらの結果は、継続的RLを、再利用可能で有能な方策近傍を中心に捉え直し、単一モデルの保存を超えて、より可塑的な生涯エージェントへ至る道筋を与えます。