強化学習における自律型海中ナビゲーションのためのタスク特化サブネットワーク発見

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自律型海中ナビゲーションにおいて、事前学習済みのマルチタスク強化学習(RL)ポリシーネットワーク内部がどのように動くかを分析する。
  • HoloOceanシミュレータ上で、異なるターゲット(種)に向けてナビゲーションする役割を担うタスク特化サブネットワークを特定・比較し、解釈可能性の向上を目指す。
  • 関連するタスクを扱うコンテキスト付きマルチタスクRL設定では、ネットワークがタスクを区別するのに全重みの約1.5%のみを使うことが示された。
  • タスクを分けるための重みのうち約85%は、入力層のコンテキスト変数ノードから次の隠れ層への結合であり、コンテキスト変数の重要性が強調される。
  • 著者らは、共有部と専門化部の切り分けを明らかにすることで安全性を高め、モデル編集、転移学習、継続学習を効率化できると述べている。

Abstract

自律型水中ロボットは、動的で不確実な条件かつ限られたセンシングのもとで、複数のタスクを適応的かつ説明可能な形で実行することが求められます。これは、従来の制御器では対処が難しい課題です。そのため、信頼できる長期モニタリングを実現するには、頑健で汎用的、かつ本質的に解釈可能な制御方策が必要になります。強化学習、特にマルチタスクRLは、タスクや環境をまたいだ効率的な適応を可能にするための共有表現を活用することで、こうした制約を克服します。しかし、シミュレーションや管理された実験では有望な結果が示されている一方で、これらの方策は依然として不透明であり、エージェント内部の意思決定に関する洞察が限定的です。これにより、実世界での導入を妨げる透明性、信頼性、安全性に関するギャップが生じています。内部の方策構造やタスク固有の専門化は、十分に理解されていません。これらのギャップに対処するため、本研究では、さまざまな種に向かってナビゲートする役割を担うタスク固有のサブネットワークを特定し比較することで、HoloOceanシミュレータ上での水中ナビゲーションにおける事前学習済みマルチタスク強化学習ネットワークの内部構造を解析します。その結果、関連するタスクを扱う文脈付きマルチタスク強化学習の設定では、ネットワークはタスクの区別に対して、その重みの約1.5%しか使用していないことが分かりました。さらに、そのうち約85%が、入力層にある文脈変数ノードから次の隠れ層へと接続しており、このような設定における文脈変数の重要性が浮かび上がります。本手法は、共有されるネットワーク成分と専門化されたネットワーク成分についての洞察を提供し、文脈付きマルチタスク強化学習による水中モニタリングに向けた、効率的なモデル編集、転移学習、継続学習に役立ちます。