適応的タスク切り替え方針によるスパイキングニューラルネットワークを用いた自律エージェントのためのスケーラブルなマルチタスク学習

arXiv cs.RO / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、タスク干渉によりRLベースのマルチタスク性能が低下しがちな、リソース制約のある自律エージェントのスケーラブルなマルチタスク学習を目的とする。
  • SwitchMTは、能動的樹状突起とデュエリング構造を備えたDeep Spiking Q-Networkに、タスク固有のコンテキスト信号を用いて専門化したサブネットワークを形成する仕組みを組み合わせる。
  • 従来のSNNベースのRLが訓練中に固定されたタスク切り替え間隔に依存していた点を改善し、SwitchMTは報酬とネットワーク内部パラメータのダイナミクスの両方を手掛かりにする適応的タスク切り替え方針を提案する。
  • Pong、Breakout、Enduroなど複数のAtariゲームおよびより長いゲームエピソードで、最先端手法に対して競争力のあるスコアが示され、ネットワークの複雑さを増やさずにタスク干渉へ対処できることが示唆される。
  • 本手法は、スパイキング計算による低消費電力・省エネルギーを活かしつつ、訓練のスケーラビリティと有効性を高めることで、マルチタスク対応の知能エージェントを実現するものとして位置付けられている。

Abstract

複数のタスクを同時に扱う、資源制約のある自律エージェントを訓練することは、多様な現実世界の環境に適応するために重要である。近年の研究では強化学習(RL)アプローチが用いられているが、それでもタスク干渉によって多タスク性能が最適でないという問題が残っている。最先端の研究では、スパイキングニューラルネットワーク(SNN)を用いることで、RLベースの多タスク学習を改善し、ネットワーク強化とスパイク駆動のデータストリーム処理により低パワー/低エネルギー動作を可能にしている。しかし、それらは訓練中に固定されたタスク切り替え間隔に依存しているため、性能とスケーラビリティが制限される。これに対処するため、我々は、効果的でスケーラブルな、かつ同時の多タスク学習を実現する新しい手法であるSwitchMTを提案する。SwitchMTは、次の主要なアイデアを用いる。(1)アクティブ樹状突起とデュエリング構造を備えたディープ・スパイキングQネットワークを活用し、タスク固有のコンテキスト信号を用いて専門化されたサブネットワークを生成すること、そして(2)報酬とネットワークパラメータの内部ダイナミクスの両方を活用する適応的なタスク切り替えポリシーを考案すること、である。実験結果は、SwitchMTが複数のAtariゲームにおいて(すなわち、Pong: -8.8、Breakout: 5.6、Enduro: 355.2)、最先端手法と比べて競争力のあるスコアを達成し、さらにより長いゲームエピソードでも優れていることを示している。これらの結果はまた、ネットワークの複雑さを増やすことなくタスク干渉に対処するうえでSwitchMT手法の有効性を裏付け、スケーラブルな多タスク学習能力を備えたインテリジェントな自律エージェントを可能にすることを示している。