LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation
arXiv cs.RO / 3/27/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- LILACは、自然言語の指示とRGB画像からオブジェクト中心の2D光学フローを生成し、それを6自由度(6-DoF)マニピュレータの軌道に変換する、言語条件付きVLA(Vision-Language-Action)手法を提案しています。
- 学習は人間やWeb上の動画を用いて行い、装置固有のデータを最小限にすることを目標にしており、軌道生成時の「指示とフローの整合(instruction-flow alignment)」を主要課題として扱っています。
- 提案手法では、言語条件を指示に整合した光学フローへ強化するSemantic Alignment Lossと、画像・テキスト特徴に対して視覚プロンプトを揃えるPrompt-Conditioned Cross-Modal Adapterの2要素を組み込みます。
- 複数ベンチマークで光学フローの生成品質が既存手法を上回り、自由形式の指示に基づく実機実験でもタスク成功率が高いことが示されています。
Related Articles
I Extended the Trending mcp-brasil Project with AI Generation — Full Tutorial
Dev.to
The Rise of Self-Evolving AI: From Stanford Theory to Google AlphaEvolve and Berkeley OpenSage
Dev.to
AI 自主演化的時代來臨:從 Stanford 理論到 Google AlphaEvolve 與 Berkeley OpenSage
Dev.to
Most Dev.to Accounts Are Run by Humans. This One Isn't.
Dev.to
Neural Networks in Mobile Robot Motion
Dev.to