自律的なサンゴ礁モニタリングのための文脈依存マルチタスク強化学習

arXiv cs.RO / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、データ駆動型の強化学習アプローチにより、高度に不確実で非定常な水中ダイナミクスの下でサンゴ礁モニタリングを行う自律型水中ロボット（AUV）の制御を扱います。
従来の単一タスク強化学習は学習環境に過適合し、その結果として長期的な有用性が低下し得ると主張し、再利用性を高めるための文脈依存マルチタスク強化学習を提案します。
この手法は、あるサンゴ礁でのアコヤガイ（牡蠣）検出から別のサンゴ礁でのサンゴ検出のような、複数の関連タスクにわたって再利用できる単一の文脈依存ポリシーを学習します。
シミュレートされたHoloOceanのサンゴ礁環境での実験により、サンプル効率、未見のタスクへのゼロショット汎化、水流の変化に対する頑健性を評価します。
本研究の目的は、より頑健で汎化可能な制御ポリシーを得て、より持続可能な自律的サンゴ礁モニタリングのワークフローを支援することにあります。

Abstract

自律型無人潜水機（AUV）は海洋生態系のモニタリング能力を提供し得ますが、その配備は、本質的に、非常に不確実で非定常な水中ダイナミクス下で車両を制御することの難しさによって根本的に制約されています。これらの課題に対処するために、未知のダイナミクスやタスクの変動を補償するため、データ駆動型強化学習のアプローチを採用します。従来の単一タスク強化学習は学習環境に過適合しやすく、そのため学習した方策の長期的な有用性が制限されます。そこで本研究では、代わりにコンテキスト付きマルチタスク強化学習のパラダイムを用いることを提案します。これにより、例えばある礁で牡蠣を検出し、別の礁でサンゴを検出するといった、さまざまなタスクに再利用可能な制御器を学習できるようになります。自律型無人潜水機によるサンゴ礁モニタリングにおいて、コンテキスト付きマルチタスク強化学習が頑健で汎化可能な制御方策を効率的に学習できるかどうかを評価します。HoloOcean のシミュレートされた礁環境において、複数の関連するモニタリングタスクを解決できる単一のコンテキスト依存型方策を学習します。実験では、サンプル効率、未見のタスクへのゼロショット汎化、ならびに水流の変動に対する頑健性という観点から、コンテキスト付き方策を経験的に評価します。マルチタスク強化学習を活用することで、学習の有効性だけでなく、学習した方策の再利用性も高め、より持続可能な自律型サンゴ礁モニタリング手順へ一歩踏み出すことを目指します。