ロックインを打ち破る:低データVLAのポストトレーニング下で操縦可能性(steerability)を維持する
arXiv cs.RO / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、低データの教師あり微調整(SFT)後にvision-language-action(VLA)ポリシーが「ロックイン」し、新しい指示に応答できなくなる現象を扱っています。
- 失敗モードとして、学習データの対象・属性に過度に固執する「概念ロックイン」と、学習時の空間ターゲットに過度に固執する「空間ロックイン」を整理しています。
- 著者らはDeLockを提案し、ポストトレーニング中に視覚的なグラウンディングを保持しつつ、テスト時のコントラストiveプロンプトガイダンスでポリシーのデノイジング・ダイナミクスを新しい指示に合わせて誘導します。
- シミュレーションと実環境を合わせた8つの評価で、DeLockは強力なベースラインを上回り、より大量の厳選デモでポストトレーニングした最先端の汎用VLAポリシーに匹敵、あるいは上回る性能を示しました。
- この手法は、追加の教師信号やデータ拡張に頼る必要を減らし、ポストトレーニング時にモデルの内部にある事前学習知識を活用します。




