Action Draft and Verify: 視覚・言語・行動モデルの自己検証フレームワーク

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

共有:

要点

ADV は、拡散ベースのアクションドラフトと検証ステップを組み合わせた、視覚・言語・行動モデルの自己検証フレームワークを提示します。
ADV は、拡散アクションエキスパートを用いて複数の候補となるアクションチャンクをドラフトし、視覚・言語モデルの1回のフォワードパスでパープレキシティ風の指標によりそれらをランク付けします。
バックボーン、データ、およびアクションチャンク長を揃えて学習した場合、ADV は拡散ベースのベースラインを上回り、シミュレーション環境で +4.3 ポイント、実世界の設定で +19.7 ポイントの成功率を改善します。オーバーヘッドは VLM の1回の再ランキングのみです。
拡散ベースの事前情報と自己回帰の事前情報を統合することで、ADV は分布外環境における身体性タスクの堅牢性と一般化を高めることを目指します。

概要：
Vision-Language-Action (VLA) モデルは最近、体現タスク全般で高い性能を示しています。現代のVLAsは一般に拡散アクションエキスパートを用いて、高精度の連続アクションチャンクを効率的に生成します。一方、自己回帰生成は低レベルの制御において遅く、精度が低いことがあります。それでも、自己回帰パラダイムは補完的な priors を提供し、分布外の環境におけるロバスト性と一般化を向上させる可能性があります。両方のパラダイムを活用するために、Action-Draft-and-Verify（ADV）を提案します：拡散アクションエキスパートが複数の候補アクションチャンクを草案し、視覚-言語モデル（VLM）が1回のフォワードパスで全候補をスコア付けするパープレキシティ風の指標によって1つを選択します。マッチしたバックボーン、トレーニングデータ、およびアクションチャンク長の下で、ADVは拡散ベースのベースラインに比べ、シミュレーションで+4.3ポイント、実世界で+19.7ポイントの成功率を向上させます。単一パスのVLM再ランク付けオーバーヘッドを伴います。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

Action Draft and Verify: 視覚・言語・行動モデルの自己検証フレームワーク

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer