広告

CLaD: クロスモーダル潜在ダイナミクスによるグラウンディングされた先見予測に基づく計画

arXiv cs.RO / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボティクスの計画フレームワークであるCLaDを提案する。単一の空間だけで計画するのではなく、運動学的(固有受容感覚)状態遷移とセマンティック状態遷移を明示的に整合させる。
  • CLaDは非対称のクロス注意(cross-attention)を用い、運動学的遷移がセマンティック側をクエリすることで、「グラウンディングされた潜在的な先見(grounded latent foresight)」を両モーダルに条件付けて予測可能にする。
  • 表現の崩壊(representation collapse)を抑えつつ、予測を観測可能な状態に結び付けたままにするために、自己教師あり目的、EMA(Exponential Moving Average)ターゲットエンコーダ、ならびに補助的な再構成損失を用いて学習する。
  • 予測された先見を現在の観測と組み合わせ、それを条件として拡散(diffusion)ポリシーが行動を生成する。
  • LIBERO-LONGベンチマークにおいて、CLaDは94.7%の成功率を報告しており、大規模なビジョン・言語・行動モデルと競争力を維持しながら、より少ないパラメータで実現している。

% の成功率を達成しており、大規模な VL A と競合する性能を示しながら、パラメータ数は大幅に少なくなっています。

広告
CLaD: クロスモーダル潜在ダイナミクスによるグラウンディングされた先見予測に基づく計画 | AI Navigate