概要: 視覚-言語-行動(VLA)モデルはロボット制御において強力なゼロショット汎化を持つことが示されている一方で、その巨大なパラメータ規模のために、通常はクラウドベースの展開が必要となります。しかし、クラウド展開ではネットワークのジッタと推論遅延が生じ、それが連続的な変位の下でモバイルナビゲーションにおける重大な時空間の不整合を引き起こし得ます。その結果、過去のエゴフレームで表現された古い意図が現在のフレームにおいて空間的に不正確になり、衝突につながる可能性があります。この問題に対処するため、我々はプラグアンドプレイ可能な非同期制御フレームワークであるAsyncShieldを提案します。AsyncShieldは、従来のブラックボックスな時系列予測を捨て、決定論的な物理ホワイトボックスの空間マッピングを採用します。時間的な姿勢バッファを維持し、運動学的変換を利用することで、システムは時間的ラグを空間的な姿勢オフセットへ正確に変換し、VLA本来の幾何学的意図を復元します。意図復元の忠実性と物理的安全性のバランスを取るため、エッジ適応は制約付きマルコフ決定過程(CMDP)として定式化されます。PPO-Lagrangianアルゴリズムにより解かれることで、強化学習アダプタは、高周波のLiDARによる障害物回避のハード制約に応答しつつ、VLAの意図の追跡とその動的なトレードオフを行います。さらに、標準化されたユニバーサルなサブゴール・インターフェース、ドメインランダム化、そしてCollision Radius Inflationによる知覚レベルの適応を活用することで、AsyncShieldは軽量なプラグアンドプレイ・モジュールとして動作します。シミュレーションおよび実環境での実験により、クラウド上の基盤モデルを微調整することなく、当該フレームワークがゼロショットかつ頑健な汎化能力を示し、非同期ナビゲーションの成功率と物理的安全性を効果的に向上させることが確認されました。
AsyncShield:非同期クラウド型VLAナビゲーション向けのプラグアンドプレイ・エッジアダプタ
arXiv cs.RO / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文では、クラウド展開に伴うネットワークジッタや推論遅延によってVLAの空間・時間的な整合が崩れ、衝突につながり得る問題を、プラグアンドプレイのエッジアダプタ「AsyncShield」で解決する。
- AsyncShieldは、時系列のブラックボックス予測に頼る代わりに、ホワイトボックスの決定論的な空間マッピングを採用し、時間的ポーズバッファと運動学的変換を用いて遅延を空間的なポーズオフセットへ変換してVLAの幾何学的意図を復元する。
- エッジ側の適応は制約付きマルコフ決定過程(CMDP)として定式化され、PPO-Lagrangianで解くことで、LiDARによる高頻度の障害物回避という安全制約に対して、意図追従と安全応答のバランスを動的に調整する。
- シミュレーションと実環境の両方で、クラウドの基盤モデルを微調整せずにゼロショットかつ頑健に一般化でき、移動の成功率と物理的安全性の両方を向上させることが示される。




