Action Draft and Verify: 視覚・言語・行動モデルの自己検証フレームワーク

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • ADV は、拡散ベースのアクションドラフトと検証ステップを組み合わせた、視覚・言語・行動モデルの自己検証フレームワークを提示します。
  • ADV は、拡散アクションエキスパートを用いて複数の候補となるアクションチャンクをドラフトし、視覚・言語モデルの1回のフォワードパスでパープレキシティ風の指標によりそれらをランク付けします。
  • バックボーン、データ、およびアクションチャンク長を揃えて学習した場合、ADV は拡散ベースのベースラインを上回り、シミュレーション環境で +4.3 ポイント、実世界の設定で +19.7 ポイントの成功率を改善します。オーバーヘッドは VLM の1回の再ランキングのみです。
  • 拡散ベースの事前情報と自己回帰の事前情報を統合することで、ADV は分布外環境における身体性タスクの堅牢性と一般化を高めることを目指します。

概要:
Vision-Language-Action (VLA) モデルは最近、体現タスク全般で高い性能を示しています。現代のVLAsは一般に拡散アクションエキスパートを用いて、高精度の連続アクションチャンクを効率的に生成します。一方、自己回帰生成は低レベルの制御において遅く、精度が低いことがあります。それでも、自己回帰パラダイムは補完的な priors を提供し、分布外の環境におけるロバスト性と一般化を向上させる可能性があります。両方のパラダイムを活用するために、Action-Draft-and-Verify(ADV)を提案します:拡散アクションエキスパートが複数の候補アクションチャンクを草案し、視覚-言語モデル(VLM)が1回のフォワードパスで全候補をスコア付けするパープレキシティ風の指標によって1つを選択します。マッチしたバックボーン、トレーニングデータ、およびアクションチャンク長の下で、ADVは拡散ベースのベースラインに比べ、シミュレーションで+4.3ポイント、実世界で+19.7ポイントの成功率を向上させます。単一パスのVLM再ランク付けオーバーヘッドを伴います。