SVLL: 物理的に現実世界と結びついた身体化タスク計画のための段階的視覚-言語学習

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

SVLLは、空間的グラウンディングを時間推論から切り離すことでロバスト性を高める、物理的に現実世界と結びついた身体化タスク計画の3段階フレームワークを導入する。
DPOの限界を指摘し、Bias-DPOを提案する。Bias-DPOは、正解のアクションに対する尤度を最大化しつつ、過度の確信を持つ幻出を罰する。
SVLLはポリシーを専門家の軌道空間へアンカー付けして、因果ミスマッチを低減し、物理的に不可能な近道を防ぐ。
AI2-THORベンチマークと実世界のロボティクスでの実験は、SVLLがタスク成功率で最先端のオープンソースモデル（例: Qwen2.5-VL-7B）およびクローズドソースモデル（例: GPT-4o、Gemini-2.0-flash）を上回り、物理的制約違反を大幅に低減することを示した。

要旨: 身体化タスク計画は、視覚と言語モデルに視覚的にグラウンデッドされ、時間を通じて因果的整合性を持つアクション列を生成することを求める。しかし、既存の訓練パラダイムは重要なトレードオフに直面している。エンドツーエンドの結合訓練は早期の時間的結合を招くことが多く、標準的な強化学習法は最適化の不安定さに悩まされる。このギャップを埋めるべく、我々は Staged Vision-Language Learning (SVLL) を提示する。これは堅牢で物理的にグラウンデッドな embodied planning のための統一された3段階フレームワークである。最初の二段階では、SVLLは空間グラウンディングと時間推論を切り離し、連続的なアクション履歴を導入する前に堅牢な視覚依存性を確立する。最終段階では、標準的な Direct Preference Optimization (DPO) の主要な限界、純粋に相対的な性質—勝ちと負けの軌跡間の好みのギャップのみを最適化し、最適経路の絶対的尤度制約を無視する点—を指摘する。これに対処するため、Bias-DPO を導入する。これは ground-truth actions の尤度を明示的に最大化し、過度に確信した幻像を罰することで、専門家の軌道へ帰納的なバイアスを注入する新しい整合目的関数である。専門家の軌道空間へポリシーをアンカー付けし、因果的ミスアラインメントを緩和することにより、Bias-DPO に支えられた SVLL は環境のアフォーダンスを厳密に遵守し、物理的に不可能な近道を効果的に抑制する。最後に、対話型の AI2-THOR ベンチマークと実世界のロボット展開での広範な実験は、SVLL がタスク成功率で最先端のオープンソースモデル（例: Qwen2.5-VL-7B）およびクローズドソースモデル（例: GPT-4o、Gemini-2.0-flash）を上回り、物理的制約違反を大幅に低減することを示している。

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

Siriが声を認識する仕組み！波形と周波数分解で紐解く3つの秘密

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

日本で先端チップ設計の芽、マイニング用途で中国独走に待った

日経XTECH

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

Dev.to

SVLL: 物理的に現実世界と結びついた身体化タスク計画のための段階的視覚-言語学習

要点

関連記事

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

Siriが声を認識する仕組み！波形と周波数分解で紐解く3つの秘密

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日本で先端チップ設計の芽、マイニング用途で中国独走に待った

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

Siriが声を認識する仕組み！波形と周波数分解で紐解く3つの秘密

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

日本で先端チップ設計の芽、マイニング用途で中国独走に待った

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ