テスト時強化学習によるその場(オンザフライ)VLA適応

arXiv cs.RO / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論時にVision-Language-Action(VLA)ロボットの方策を適応させるテスト時強化学習フレームワークTT-VLAを提案し、別途の微調整フェーズや追加のデータ収集を不要にする。
  • TT-VLAは、段階ごとのタスク進捗に関する信号に基づく密な報酬設計を用いて、テスト時に反復的に行動を改善しつつ、元のSFT/RLで学習した事前知識(プリオル)を維持する。
  • 実験により、シミュレーションおよび実環境の双方において、動的であり、かつ従来は見たことのない状況に直面した際のVLAは、適応性・安定性・タスク成功率が向上することが示される。
  • 本研究は、変化し続ける環境に自律的に応答できる、より自己改善可能で実運用に向けたVLAへの一歩としてTT-VLAを位置付ける。

Abstract

近年、Vision-Language-Action(視覚-言語-行動)モデルは、汎用的なロボット学習のための強力なパラダイムとして注目を集めており、エージェントが視覚観測と自然言語による指示を、実行可能なロボット動作へと写像できるようになっています。広く普及している一方で、これらは主として教師あり微調整(supervised fine-tuning)や学習時強化学習(training-time reinforcement learning)によって訓練されており、明示的な微調整フェーズ、人手による介入、または制御されたデータ収集が必要です。その結果、既存手法は、ロボットが自律的かつ柔軟に変化する環境へ対応しなければならない、困難なシミュレーション環境や物理世界での導入には不向きなままです。この制約に対処するために、我々はVLAsのためのテスト時強化学習(Test-Time Reinforcement Learning for VLAs: TT-VLA)を提案します。TT-VLAは、推論(inference)中にオンザフライで方策を適応させることを可能にする枠組みです。TT-VLAは、ステップごとのタスク進捗のシグナルを活用する密な報酬(dense reward)メカニズムを定式化し、SFT/RLで訓練された事前(priors)を保持しながら、テスト時に行動方策を洗練します。これにより、既存のVLAモデルに対する有効な補完手法となります。実験結果は、本手法が、シミュレーション環境および現実世界の両方において、動的でかつ従来見たことのない状況に対する総合的な適応性、安定性、ならびにタスク成功を向上させることを示しています。我々はTT-VLAが、自ら改善し導入可能なVLAsに向けた、原理に基づく一歩を提供すると考えています。