FASTER:リアルタイム・フローVLAを再考する

arXiv cs.RO / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Vision-Language-Action(VLA)モデルを現実世界で動かすには環境変化に即応するためのレイテンシが重要だとし、既存の非同期推論は主に軌道の滑らかさを最適化して反応遅延を軽視しがちだと指摘しています。
  • 反応時間は、Time to First Action(TTFA)と実行ホライズンの双方によって同時に決まり、一様分布としてモデル化できることを示しています。
  • フローベースVLAで一般的に行われる一定スケジュール適用が非効率で、「サンプリング手順をすべて終えてからでないと移動を開始できない」ことにより反応レイテンシのボトルネックを作ってしまうと明らかにしています。
  • それを解決するために、FASTER(Fast Action Sampling for ImmediaTE Reaction)を提案し、Horizon-Aware Scheduleによってフローサンプリング中に近未来の行動を優先して、即時反応のデノイジングを(例:\(\pi_{0.5}\)やX-VLAで)約10倍に圧縮しつつ、長期ホライズンの軌道品質は維持するとしています。
  • ストリーミングなクライアント—サーバーパイプラインと組み合わせ、実ロボット実験(ダイナミックな卓球タスクを含む)で、特にコンシューマ向けGPU上で実効的な反応レイテンシが大幅に低下し、汎用ポリシーのリアルタイム応答性を前例のない水準で高めたことを示しています。

概要: リアルタイム実行は、物理世界にVision-Language-Action(VLA)モデルを展開するために不可欠です。既存の非同期推論手法は主に軌道の滑らかさを最適化しますが、環境の変化に反応する際に重要となるレイテンシを無視しています。本論文では、アクションのチャンク化ポリシーにおける「反応」の概念を見直すことで、反応時間を支配する要因を体系的に分析します。その結果、反応時間は、最初の行動までの時間(Time to First Action: TTFA)と実行ホライゾンによって共同で決まる一様分布に従うことを示します。さらに、フローベースのVLAにおいて定数スケジュールを適用する標準的な実践は非効率であり、移動を開始する前にすべてのサンプリングステップを完了させることを強制してしまい、それが反応レイテンシのボトルネックになることを明らかにします。この問題を克服するために、ImmediaTE Reaction(FASTER)のための高速アクションサンプリングを提案します。ホライゾンに応じたスケジュール(Horizon-Aware Schedule)を導入することで、FASTERはフローのサンプリング中に短期的な行動を適応的に優先し、即時の反応に必要なデノイジングを10分の1に圧縮します(例:0.5およびX-VLAでは単一ステップに統合)一方で、長期ホライゾンの軌道品質は維持します。ストリーミング型のクライアント・サーバーパイプラインと組み合わせることで、FASTERは実ロボットにおいて、有効な反応レイテンシを大幅に低減します。特に、コンシューマグレードのGPUに展開した場合に効果が顕著です。高い動的性を持つ卓球タスクを含む実世界での実験により、FASTERが汎用ポリシーに対して、前例のないリアルタイム応答性を可能にし、正確で滑らかな軌道を迅速に生成できることが証明されます。