要旨: デモンストレーションからロボット制御方策を学習することは強力なパラダイムですが、現実世界のデータはしばしば最適ではなく、ノイズを含む、あるいはそれ以外の点で不完全であるため、模倣学習および強化学習にとって重大な課題となります。本研究では、上流の方策学習に用いる前に、最適でない軌跡を修復するための形式的枠組みを提示します。この枠組みは、挙動ツリー(Behavior Tree)のセマンティクスを備えた Signal Temporal Logic(STL)の拡張である Temporal Behavior Trees(TBT)を活用します。TBTの仕様に違反するデモンストレーションが与えられた場合、モデルベースの修復アルゴリズムが軌跡の区間を修正し、形式的制約を満たすようにします。これにより、論理的に一貫しており、かつ解釈可能なデータセットが得られます。次に、修復された軌跡を用いて、強化学習における報酬信号を形作るポテンシャル関数を抽出し、エージェントの運動学モデルを知る必要なく、状態空間のタスク整合的な領域へとエージェントを導きます。本枠組みの有効性は、離散グリッドワールドでのナビゲーションおよび、連続の単一・複数エージェントの reach-avoid(到達-回避)課題において実証されており、高品質なデモンストレーションを前提とできない状況での、データ効率の高いロボット学習の可能性を示しています。
時系列行動木(Temporal Behavior Tree)による軌道修復を通じた不完全なデモンストレーションからの学習
arXiv cs.LG / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、模倣学習(learning from demonstrations)における重要な制約を扱っている。現実世界の軌道はしばしばノイズを含んだり、タスク制約に違反したりするため、模倣学習や強化学習にとって問題となりうる。
- シグナル時系列論理(Signal Temporal Logic)を行動木セマンティクスで拡張した、時系列行動木(Temporal Behavior Trees: TBT)を用いることで、形式的な軌道修復フレームワークを提案する。これにより時間的なタスク要件を表現できる。
- デモンストレーションがTBTの仕様に違反する場合、モデルベースの修復アルゴリズムが軌道の各セグメントを調整し、結果として得られるデータセットが論理的に一貫し、かつ解釈可能になるようにする。
- 修復された軌道は、その後、強化学習における報酬信号(reward signal)を形成する潜在的な関数(potential functions)を抽出するために用いられる。これにより、明示的な運動学モデルを必要とせずに、エージェントをタスクに整合した領域へと導く。
- グリッドワールドでのナビゲーションおよび、連続状態の単一/複数エージェントの到達・回避(reach-avoid)タスクでの実験により、有効性の向上が示され、不完全なデモンストレーションがある状況でデータ効率がより良くなる可能性が示唆される。



