VLA-ATTC:相対的アクションクリティックを用いたVLAモデルの適応的テスト時計算

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、視覚・言語・行動(VLA)モデルに適応的テスト時計算(TTC)を追加し、必要なときにより熟考的な判断を可能にするVLA-ATTCを提案しています。
  • 不確実性に基づく「cognitive clutch」により、素早い反射的実行から、複雑または曖昧な状況でテスト時計算(TTC)の熟考フェーズへ動的に切り替えます。
  • TTC中は、新しいRelative Action Critic(RAC)モデルが生成された候補の中からペアワイズ比較によって最適な行動を選択し、不安定になりがちな絶対値推定への依存を下げます。
  • 計算コストを抑える効率的なサンプリングと、手作業のアノテーションなしで選好ペアを作る自動データパイプラインも導入しています。
  • LIBERO-LONGベンチマークで、SOTAモデルPI0.5の失敗率が50%超減少することを示し、コードと重みをオープンソース化する予定です。

要旨: Vision-Language-Action(VLA)モデルは、身体化されたマニピュレーションにおいて目覚ましい能力と汎化を示してきました。しかし、それらの意思決定は熟考を欠いた高速で直感的なプロセスに依存しています。この戦略は、より大きな考慮を必要とする複雑または曖昧な状況に直面した際に、しばしば最適でない、あるいは破滅的な行動につながります。本論文では、VLAモデルに適応的なテスト時計算(TTC)を付与する枠組みである\textbf{VLA-ATTC}を提案します。VLA-ATTCは、不確実性に基づく「認知クラッチ」を用いて、必要に応じて反射的な実行からTTCの熟考フェーズへ動的に移行します。TTCフェーズでは、新しい\textbf{Relative Action Critic}(RAC)モデルが、生成された候補に対するペアワイズ比較によって最適な行動を特定します。この相対メカニズムは、不安定になり得る絶対値の評価を置き換えるものであり、学習目的を大幅に単純化します。さらに、計算コストをならすための効率的なサンプリング戦略と、人手によるアノテーションなしで選好ペアをキュレーションする自動データパイプラインを導入します。LIBERO-LONGベンチマークにおいて、VLA-ATTCはSOTAモデルPI0.5の失敗率を50\%超低減します。すべてのコードと重みをオープンソース化します。