Simple Recipe Works: Vision-Language-Actionモデルは強化学習とともに自然な継続学習モデルである

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、3つのモデルと5つの生涯強化学習ベンチマークに跨る大規模事前学習済み Vision-Language-Action モデルの継続的強化学習について体系的な研究を行い、従来の信念に挑戦している。
LoRAを用いたシンプルな逐次ファインチューニングは高い可塑性、ほとんど忘却がない、強力なゼロショット一般化を達成し、しばしばより複雑な CRL 手法を上回る。
この頑健性は、大規模な事前学習済みモデル、パラメータ効率的な適応、オンポリシー RLの相乗効果によるもので、継続的適応の安定性と可塑性のトレードオフを再構築する。
再現性と実践的な実験のために、コードは github.com/UT-Austin-RobIn/continual-vla-rl で公開されている。