概要: Vision-Language-Action(VLA)モデルは近年、身体を備えたタスクにおいて目覚ましい進歩を遂げてきましたが、多くの手法は各タイムステップで視覚観測を独立に処理しています。この履歴非依存(history-agnostic)な設計は、ロボットの操作をマルコフ決定過程(Markov Decision Process)として扱いますが、実世界のロボット制御は本質的に部分観測であり、過去の相互作用に基づく推論が必要です。不一致に対処するために、我々は部分観測マルコフ決定過程(Partially Observable Markov Decision Process)の観点からVLAポリシー学習を再定式化し、課題履歴に関するエージェントの信念(belief)をニューラルに近似する役割を果たす再帰的な状態に基づいて行動生成を条件付けするフレームワークAV A-VLAを提案します。この再帰的状態を土台として、Active Visual Attention(AVA)を導入します。AVAは、命令と実行履歴の両方を踏まえて、現在の観測における視覚トークンに対して動的に重み付けを行い、最も関連性の高い領域に注意を向けます。大規模な実験の結果、AVA-VLAはLIBEROおよびCALVINを含む標準的なロボットベンチマークにおいて最先端の性能を達成し、実世界のデュアルアーム(両腕)操作タスクにも効果的に転移することが示されました。これらの結果は、ロボットの逐次意思決定においてVLAの性能を改善するために、時間的に根ざした能動的な視覚処理が有効であることを裏付けています。プロジェクトページは https://liauto-dsr.github.io/AVA-VLA-Page で利用できます。
AVA-VLA:能動的ビジュアルアテンションによる視覚言語行動モデルの改善
arXiv cs.RO / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の視覚言語行動(VLA)モデルが各視覚フレームを独立に扱うことが多い一方で、実際のロボット制御は部分観測であり、過去の相互作用に依存するため、この前提が不一致であると主張する。
- それに対し本論文は、POMDPの観点からVLAの方策学習を再定式化し、タスク履歴に対するエージェントの信念を近似するための再帰的な内部状態を用いるAVA-VLAを提案する。
- 提案手法では、能動的ビジュアルアテンション(AVA)を導入し、指示と実行履歴の両方に基づいて視覚トークンの重みを適応的に再配分することで、時間的に関連のある領域を強調する。
- 実験では、LIBEROやCALVINといったロボットベンチマークで最先端の結果を報告し、さらに実世界のデュアルアーム操作タスクへの有効な転移も示す。

