ロボティック制御における拡散モデルの条件の探究

arXiv cs.RO / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散モデル自体を微調整せずに、事前学習済みのテキスト対画像拡散モデルを用いて、ロボティクスの模倣学習のためのタスク適応的な視覚表現を生成する方法を検討する。
  • その結果、他の視覚タスクでうまく機能するテキスト条件をそのまま適用しても、拡散の学習データとロボット環境の間にドメインギャップがあるため、ロボット制御に対して改善がほとんど得られない、あるいは負の改善さえ生じうることが分かった。
  • 著者らは、効果的な条件付けには、単なる素朴なテキストプロンプトに頼るのではなく、制御に固有の動的で微細な視覚情報を考慮する必要があると主張する。
  • さらに、ORCAを提案する。ORCAは、制御環境に適応する学習可能なタスクプロンプトを用い、フレーム固有の詳細を捉えるために設計された視覚プロンプトを組み合わせる。
  • ORCAは、複数のロボティック制御ベンチマークにおいて最先端の結果を達成し、凍結した事前学習表現を用いる従来手法を上回る。

Abstract

事前学習済みの視覚表現は模倣学習を大きく前進させてきましたが、方策学習の間もモデルが凍結されたままであるため、多くの場合タスクに無関係です。本研究では、モデル自体を微調整することなく、事前学習済みのテキストから画像への拡散モデルを活用して、ロボット制御のためのタスク適応的な視覚表現を得ることを探ります。しかし、他の視覚領域で成功している方策として、テキストによる条件付けをそのまま適用しても、制御タスクでは得られる改善が最小、あるいは負の結果さえ生じることを見出します。これは、拡散モデルの学習データとロボット制御環境との間に生じるドメインギャップに起因すると考えられます。そこで我々は、制御に必要な、特定かつ動的な視覚情報を考慮する条件が重要であると主張します。これに基づき、本研究ではORCAを提案します。ORCAは、制御環境に適応する学習可能なタスクプロンプトと、フレームごとのきめ細かな詳細を捉える視覚プロンプトを導入します。新たに考案した条件によってタスク適応的な表現を促進することで、本手法は様々なロボット制御ベンチマークにおいて最先端の性能を達成し、先行手法を大幅に上回ります。