VLA-OPD：オンポリシー蒸留によってビジョン・ランゲージ・アクション・モデルのオフラインSFTとオンラインRLをつなぐ

arXiv cs.RO / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、ビジョン・ランゲージ・アクション（VLA）ロボティクスモデルのための事後学習フレームワークであるVLA-OPDを提案し、オフラインの教師あり微調整（SFT）の効率性と、オンライン強化学習（RL）の頑健性を組み合わせます。
脆弱な（疎な）環境報酬を用いる代わりに、VLA-OPDはエキスパートの教師を用いて、生徒が自分で生成した軌道（self-generated trajectories）に対し、トークン単位の緻密な教師信号（dense, token-level supervision）を与えます。これにより、方策に起因する状態において修正学習が可能になります。
本手法は学習を安定化するためにReverse-KL目的関数を用い、Forward-KLに伴うエントロピー課題や、ハード交差エントロピーに関連する早期のエントロピー崩壊を回避することを目指します。
LIBEROおよびRoboTwin2.0での実験により、VLA-OPDはRLに比べてサンプル効率を向上させ、SFTに比べて頑健性を高め、事前学習された能力の壊滅的忘却（catastrophic forgetting）を抑制することが示されています。
全体として、このアプローチは事後学習を「穏やかなアラインメント（gentle alignment）」として位置づけ、既存の汎化能力を保ったまま、進化する方策によって生じる分布シフト中に発生する誤りを修正します。