Latent Bridge：効率的なデュアルシステムVLM-VLA推論のためのフィーチャー・デルタ予測

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

Latent Bridgeは、デュアルシステムのVision-Language-Action（VLA）ロボティクスモデルにおけるボトルネックを、制御ステップ間でのVision-Language Model（VLM）バックボーンの冗長計算を減らすことで解決しようとします。
軽量モデルで時刻tからt+1のVLM出力のデルタを予測し、その予測出力をアクションヘッドが利用することで、高コストなVLMバックボーンの呼び出しを周期的にする仕組みです。
この手法は、GR00T-N1.6（フィーチャースペース・ブリッジ）とπ0.5（KVキャッシュ・ブリッジ）の2つの異なるVLA実装に適用され、アーキテクチャをまたいで一般化できることを示しています。
タスク非依存のDAgger学習パイプラインにより、複数のベンチマークで性能保持率95〜100%を維持しつつ、VLM呼び出しを50〜75%削減し、エピソードあたりの純粋な速度を約1.65〜1.73倍に向上させます。

要旨: デュアルシステムのビジョン・言語・アクション（VLA）モデルは、最先端のロボット操作を実現しますが、VLMバックボーンによってボトルネックになります。VLMバックボーンは、時間的に冗長な特徴を生成しつつ、制御ステップのたびに実行する必要があるためです。私たちは、Latent Bridge（潜在ブリッジ）を提案します。これは軽量なモデルであり、各タイムステップ間でのVLM出力の差分（デルタ）を予測します。これにより、アクションヘッドは予測された出力に基づいて動作でき、コストの高いVLMバックボーンは周期的に呼び出すだけで済むようになります。私たちは、構造的に異なる2つのVLAに対してLatent Bridgeを実装します。GR00T-N1.6（特徴空間ブリッジ）および {\pi}0.5（KVキャッシュブリッジ）であり、このアプローチがVLA設計をまたいで一般化できることを示します。タスクに依存しないDAgger訓練パイプラインは、変更なしでベンチマーク間に転移します。4つのLIBEROスイート、24のRoboCasaキッチンタスク、およびALOHAのシミュレーションからの転移キューブ課題において、Latent Bridgeは95-100%の性能保持を達成しつつ、VLM呼び出しを50-75%削減します。その結果、エピソードあたりのネットの速度向上は1.65-1.73倍になります。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/5Dailyインサイトを見る →

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

Google AI Studioでアプリを作る最初の体験：信じられないほどシンプルで直感的

Dev.to

メタ、AIで身長や骨格を分析し「13歳未満」の可能性を特定へ

TechCrunch

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

Dev.to

2026年にAI画像生成SaaSを作る：私の技術スタックと学び

Dev.to

Latent Bridge：効率的なデュアルシステムVLM-VLA推論のためのフィーチャー・デルタ予測

要点

💡 この記事が使われたインサイト

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Google AI Studioでアプリを作る最初の体験：信じられないほどシンプルで直感的

メタ、AIで身長や骨格を分析し「13歳未満」の可能性を特定へ

「CLAUDE.md」13のルールでAIに“モダンPHP”を書かせる（PHP5の復活じゃない）

2026年にAI画像生成SaaSを作る：私の技術スタックと学び

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer