オープンループ計画、クローズドループ検証:VLAのための推論的検証

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision-Language-Action(VLA)の推論コストを削減しつつ、オープンループの誤差蓄積を緩和するためのVLA制御の「推論的検証(Speculative Verification for VLA:SV-VLA)」を提案する。
  • SV-VLAは、重いが低頻度で動作するVLAマクロプランナーがアクションのチャンクを生成し、最新の観測を用いて実行を継続的に監視する軽量な検証器を組み合わせる。
  • 検証器は、現在の観測および計画コンテキストに条件付けられたクローズドループの参照と、計画されたアクションを比較し、必要なときだけ再計画をトリガーする。
  • 実験の結果、SV-VLAはアクションチャンク化の効率的な利点を維持しつつ、動的環境における頑健性を向上させることが示される。
  • 著者らは、リンクされたGitHubリポジトリでSV-VLAの公開コードを提供しており、再現やさらなる開発を支援する。

Abstract

身体化された制御のための大規模基盤モデルであるVision-Language-Action(VLA)モデルは、操作タスクにおいて強力な性能を示してきました。しかし、その性能は推論コストが高いという課題があります。効率を改善するために、近年の手法ではアクション・チャンク化を採用しており、オープンループ実行のための将来の一連のアクションを予測します。計算量を削減するのには有効ですが、オープンループ実行は環境の変化に敏感であり、クローズドループのフィードバックがないために誤差が蓄積しやすいという問題があります。この制約に対処するために、本論文ではVLA制御のための推測的検証(Speculative Verification for VLA Control; SV-VLA)を提案します。これは、効率的なオープンループの長期計画と、軽量なクローズドループのオンライン検証を組み合わせる枠組みです。具体的には、SV-VLAは重いVLAを低頻度のマクロプランナーとして用い、計画コンテキストとともにアクション・チャンクを生成します。一方、軽量な検証器は、最新の観測に基づいて実行を継続的に監視します。現在の観測と計画コンテキストの両方に条件付けたうえで、検証器は計画されたアクションをクローズドループの参照アクションと比較し、必要な場合にのみ再計画をトリガします。実験の結果、SV-VLAは、チャンク化された予測の効率と、クローズドループ制御の頑健性を両立し、動的な環境において効率的かつ信頼性の高いVLAベースの制御を可能にすることが示されました。コードは以下で利用可能です: https://github.com/edsad122/SV-VLA。