LILAC:オープンループ軌道生成のための言語条件付きオブジェクト中心光学フロー

arXiv cs.RO / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LILACは、自然言語の指示とRGB画像からオブジェクト中心の2D光学フローを生成し、それを6自由度(6-DoF)マニピュレータの軌道に変換する、言語条件付きVLA(Vision-Language-Action)手法を提案しています。
  • 学習は人間やWeb上の動画を用いて行い、装置固有のデータを最小限にすることを目標にしており、軌道生成時の「指示とフローの整合(instruction-flow alignment)」を主要課題として扱っています。
  • 提案手法では、言語条件を指示に整合した光学フローへ強化するSemantic Alignment Lossと、画像・テキスト特徴に対して視覚プロンプトを揃えるPrompt-Conditioned Cross-Modal Adapterの2要素を組み込みます。
  • 複数ベンチマークで光学フローの生成品質が既存手法を上回り、自由形式の指示に基づく実機実験でもタスク成功率が高いことが示されています。

概要: 本稿では、フローベースの軌道生成を用いた、言語条件付きロボットマニピュレーションに取り組みます。これにより、物体操作の人間およびWeb動画で学習でき、必要とされるのは最小限の機体特有データのみです。この課題は、操作前の画像と自然言語指示から物体の軌道を生成するには、適切な指示—フローの整合が必要であるため、難易度が高くなります。そこで本研究では、フローベースの「言語指示ガイド付きオープンループ・アクション生成器(LILAC)」を提案します。提案手法のフローベースの「ビジョン・ランゲージ・アクション」モデル(VLA)は、RGB画像と自然言語指示から物体中心の2D光学フローを生成し、そのフローを6自由度(6-DoF)のマニピュレータ軌道へと変換します。LILACには2つの重要な構成要素が組み込まれています。すなわち、言語条件付けを強化して指示に整合した光学フローを生成する「セマンティック・アラインメント・ロス」、そして、学習された視覚プロンプトを画像およびテキストの特徴に整合させ、フロー生成のための豊富な手がかりを提供する「プロンプト条件付きクロスモーダル・アダプタ」です。実験の結果、提案手法は複数のベンチマークにおいて生成されたフローの品質で、既存手法を上回りました。さらに、自由形式の指示を用いた物理的な物体操作実験では、LILACは既存手法よりも高いタスク成功率を示しました。プロジェクトページは https://lilac-75srg.kinsta.page/ で公開されています。