要旨: Vision-Language-Action(VLA)モデルは、身体化されたマニピュレーションにおいて目覚ましい能力と汎化を示してきました。しかし、それらの意思決定は熟考を欠いた高速で直感的なプロセスに依存しています。この戦略は、より大きな考慮を必要とする複雑または曖昧な状況に直面した際に、しばしば最適でない、あるいは破滅的な行動につながります。本論文では、VLAモデルに適応的なテスト時計算(TTC)を付与する枠組みである\textbf{VLA-ATTC}を提案します。VLA-ATTCは、不確実性に基づく「認知クラッチ」を用いて、必要に応じて反射的な実行からTTCの熟考フェーズへ動的に移行します。TTCフェーズでは、新しい\textbf{Relative Action Critic}(RAC)モデルが、生成された候補に対するペアワイズ比較によって最適な行動を特定します。この相対メカニズムは、不安定になり得る絶対値の評価を置き換えるものであり、学習目的を大幅に単純化します。さらに、計算コストをならすための効率的なサンプリング戦略と、人手によるアノテーションなしで選好ペアをキュレーションする自動データパイプラインを導入します。LIBERO-LONGベンチマークにおいて、VLA-ATTCはSOTAモデルPI0.5の失敗率を50\%超低減します。すべてのコードと重みをオープンソース化します。
VLA-ATTC:相対的アクションクリティックを用いたVLAモデルの適応的テスト時計算
arXiv cs.RO / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、視覚・言語・行動(VLA)モデルに適応的テスト時計算(TTC)を追加し、必要なときにより熟考的な判断を可能にするVLA-ATTCを提案しています。
- 不確実性に基づく「cognitive clutch」により、素早い反射的実行から、複雑または曖昧な状況でテスト時計算(TTC)の熟考フェーズへ動的に切り替えます。
- TTC中は、新しいRelative Action Critic(RAC)モデルが生成された候補の中からペアワイズ比較によって最適な行動を選択し、不安定になりがちな絶対値推定への依存を下げます。
- 計算コストを抑える効率的なサンプリングと、手作業のアノテーションなしで選好ペアを作る自動データパイプラインも導入しています。
- LIBERO-LONGベンチマークで、SOTAモデルPI0.5の失敗率が50%超減少することを示し、コードと重みをオープンソース化する予定です。
関連記事

キオクシア、27年にAI向け100倍速SSD 「NVIDIAから要望」
日経XTECH

無料で「ComfyUI」「Open WebUI」などからローカルAIモデルをGPUで動かすDocker環境を一発で構築し動かし続ける「Puget Systems Docker App Packs」
GIGAZINE

小売のチャージバック回収はAgentHansaの“本当のPMF”になり得る理由
Dev.to
RTX3090でQwen3.6 27B/35Bをローカル実行すると遅い・コードが壊れる——より良い設定と自動モデル切替を探す
Reddit r/LocalLLaMA

先週のAIまとめ #340 - OpenAI vs ムスク+マイクロソフト、DeepSeek v4、Vision Banana
Last Week in AI