テスト時強化学習によるその場(オンザフライ)VLA適応
arXiv cs.RO / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時にVision-Language-Action(VLA)ロボットの方策を適応させるテスト時強化学習フレームワークTT-VLAを提案し、別途の微調整フェーズや追加のデータ収集を不要にする。
- TT-VLAは、段階ごとのタスク進捗に関する信号に基づく密な報酬設計を用いて、テスト時に反復的に行動を改善しつつ、元のSFT/RLで学習した事前知識(プリオル)を維持する。
- 実験により、シミュレーションおよび実環境の双方において、動的であり、かつ従来は見たことのない状況に直面した際のVLAは、適応性・安定性・タスク成功率が向上することが示される。
- 本研究は、変化し続ける環境に自律的に応答できる、より自己改善可能で実運用に向けたVLAへの一歩としてTT-VLAを位置付ける。


