ロボティック制御における拡散モデルの条件の探究
arXiv cs.RO / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散モデル自体を微調整せずに、事前学習済みのテキスト対画像拡散モデルを用いて、ロボティクスの模倣学習のためのタスク適応的な視覚表現を生成する方法を検討する。
- その結果、他の視覚タスクでうまく機能するテキスト条件をそのまま適用しても、拡散の学習データとロボット環境の間にドメインギャップがあるため、ロボット制御に対して改善がほとんど得られない、あるいは負の改善さえ生じうることが分かった。
- 著者らは、効果的な条件付けには、単なる素朴なテキストプロンプトに頼るのではなく、制御に固有の動的で微細な視覚情報を考慮する必要があると主張する。
- さらに、ORCAを提案する。ORCAは、制御環境に適応する学習可能なタスクプロンプトを用い、フレーム固有の詳細を捉えるために設計された視覚プロンプトを組み合わせる。
- ORCAは、複数のロボティック制御ベンチマークにおいて最先端の結果を達成し、凍結した事前学習表現を用いる従来手法を上回る。



