SVLL: 物理的に現実世界と結びついた身体化タスク計画のための段階的視覚-言語学習
arXiv cs.CV / 2026/3/13
📰 ニュースModels & Research
要点
- SVLLは、空間的グラウンディングを時間推論から切り離すことでロバスト性を高める、物理的に現実世界と結びついた身体化タスク計画の3段階フレームワークを導入する。
- DPOの限界を指摘し、Bias-DPOを提案する。Bias-DPOは、正解のアクションに対する尤度を最大化しつつ、過度の確信を持つ幻出を罰する。
- SVLLはポリシーを専門家の軌道空間へアンカー付けして、因果ミスマッチを低減し、物理的に不可能な近道を防ぐ。
- AI2-THORベンチマークと実世界のロボティクスでの実験は、SVLLがタスク成功率で最先端のオープンソースモデル(例: Qwen2.5-VL-7B)およびクローズドソースモデル(例: GPT-4o、Gemini-2.0-flash)を上回り、物理的制約違反を大幅に低減することを示した。
要旨: 身体化タスク計画は、視覚と言語モデルに視覚的にグラウンデッドされ、時間を通じて因果的整合性を持つアクション列を生成することを求める。しかし、既存の訓練パラダイムは重要なトレードオフに直面している。エンドツーエンドの結合訓練は早期の時間的結合を招くことが多く、標準的な強化学習法は最適化の不安定さに悩まされる。このギャップを埋めるべく、我々は Staged Vision-Language Learning (SVLL) を提示する。これは堅牢で物理的にグラウンデッドな embodied planning のための統一された3段階フレームワークである。最初の二段階では、SVLLは空間グラウンディングと時間推論を切り離し、連続的なアクション履歴を導入する前に堅牢な視覚依存性を確立する。最終段階では、標準的な Direct Preference Optimization (DPO) の主要な限界、純粋に相対的な性質—勝ちと負けの軌跡間の好みのギャップのみを最適化し、最適経路の絶対的尤度制約を無視する点—を指摘する。これに対処するため、Bias-DPO を導入する。これは ground-truth actions の尤度を明示的に最大化し、過度に確信した幻像を罰することで、専門家の軌道へ帰納的なバイアスを注入する新しい整合目的関数である。専門家の軌道空間へポリシーをアンカー付けし、因果的ミスアラインメントを緩和することにより、Bias-DPO に支えられた SVLL は環境のアフォーダンスを厳密に遵守し、物理的に不可能な近道を効果的に抑制する。最後に、対話型の AI2-THOR ベンチマークと実世界のロボット展開での広範な実験は、SVLL がタスク成功率で最先端のオープンソースモデル(例: Qwen2.5-VL-7B)およびクローズドソースモデル(例: GPT-4o、Gemini-2.0-flash)を上回り、物理的制約違反を大幅に低減することを示している。

