AR-VLA: Vision-Language-Actionモデルの真の自己回帰アクションエキスパート
arXiv cs.AI / 2026/3/12
📰 ニュースModels & Research
要点
- AR-VLAは、長寿命の記憶を持つ連続的因果シーケンスとしてアクションを生成する独立した自己回帰アクションエキスパートを導入し、従来のVision-Language-Actionモデルよりもコンテキスト認識を向上させます。
- 学習時と推論時において、知覚の陳腐化を考慮し、非同期のVision-Language-Actionモダリティを同期させる再アンカーリング機構を備えています。
- シミュレートされたタスクと実ロボットを用いた操作タスクの実験により、AR-VLAは従来のチャンクベースのアクションヘッドを置換でき、より滑らかな軌道を提供し、最先端の反応的VLAと同等またはそれ以上のタスク成功率を達成することを示しました。
- 本手法は運動学の構文の独立した事前学習と重い知覚バックボーンとのモジュール統合を可能にし、ロボティクス方針における高速制御と低速推論の周波数不一致に対処します。
要旨: 私たちは、更新可能な Vision-Language プレフィックスに条件付けしつつ、アクションを連続的な因果シーケンスとして生成する独立した自己回帰(AR)アクションエキスパートを提案します。既存の Vision-Language-Action(VLA)モデルや、各新しい観測ごとに時間的コンテキストをリセットして反応的にアクションを予測する拡散ポリシーとは異なり、私たちのアクションエキスパートは長寿命の記憶を通じて独自の履歴を保持し、文脈認識を持っています。この構造は、高速制御と遅い推論の頻度の不一致を解消し、運動学的構文の効率的な独立した事前学習と重い知覚バックボーンとのモジュール統合を可能にし、フレーム間で空間・時間的に一貫したアクション生成を自然に保証します。これらの非同期のハイブリッドV-L-Aモダリティを同期するため、トレーニング時と推論時の両方で知覚の陳腐化を数学的に考慮する再アンカーリング機構を用います。シミュレーションおよび実ロボットの操作タスクに関する実験は、提案手法が専門家ポリシーと一般ポリシーの双方において従来のチャンクベースのアクションヘッドを効果的に置換できることを示しています。AR-VLAは、優れた履歴認識と大幅に滑らかなアクション軌道を示し、最先端の反応的VLAsのタスク成功率を維持または上回っています。全体として、我々の研究はスケーラブルで文脈を意識したアクション生成スキームを導入し、効果的なロボットポリシーの訓練に対して強力な構造的基盤を提供します。



