広告

120分とラップトップ:教師なし探索とオフラインRLによる最小限の画像目標ナビゲーション

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、巨大な事前学習データセットや大規模な計算資源への依存を避け、院内で収集したデータから学習することで実現する、画像目標に基づく視覚ナビゲーション手法MINavを提案する。
  • MINavは、ナビゲーションをオフラインの目標条件付き強化学習として捉え、経験を収集するための教師なし探索と、収集した軌跡から学習を改善するためのindsight(後知恵)目標リレベリングを用いる。
  • 著者らは、人の介入なしでコンシューマ向けのラップトップのみを用いて、120分未満で実環境のナビゲーションに向けたポリシーを収集・学習・実デプロイできることを報告する。
  • シミュレーション環境と実環境の両方での実験により、探索効率の向上、ゼロショットのナビゲーション基準手法よりも良好な性能、データセット規模に対して望ましいスケーリング特性が示されている。
  • 全体として本研究は、実環境デプロイに向けた高速で計算負荷の軽いパイプラインを示すことで、ロボットのポリシー試作を迅速に行うための障壁を下げることを目指している。

Abstract

画像目標のビジュアルナビゲーションにおける従来の主流パラダイムは、多くの場合、大規模データセットへのアクセス、十分な事前学習、そして大きな計算資源を前提としています。本研究では、この前提に挑戦します。私たちは、データセットを収集し、ドメイン内の方策を学習し、それを実世界に展開できることを示します(1)120分未満で、(2)一般的なコンシューマー向けラップトップ上で、(3)人の介入なしに実現します。我々の手法であるMINavは、画像目標ナビゲーションをオフラインの目標条件付き強化学習問題として定式化し、不明確な(教師なしの)データ収集と、後悔(hindsight)による目標のリラベリング、そしてオフライン方策学習を組み合わせます。シミュレーションおよび実世界での実験により、MINavが探索効率を向上させ、目標環境においてゼロショットのナビゲーション基線を上回り、データセット規模に対して良好にスケールすることが示されます。これらの結果は、有効な実世界ロボティック学習が高い計算効率で達成でき、迅速な方策の試作と展開のハードルを下げられることを示唆しています。

広告