ロックインを打ち破る:低データVLAのポストトレーニング下で操縦可能性(steerability)を維持する

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、低データの教師あり微調整(SFT)後にvision-language-action(VLA)ポリシーが「ロックイン」し、新しい指示に応答できなくなる現象を扱っています。
  • 失敗モードとして、学習データの対象・属性に過度に固執する「概念ロックイン」と、学習時の空間ターゲットに過度に固執する「空間ロックイン」を整理しています。
  • 著者らはDeLockを提案し、ポストトレーニング中に視覚的なグラウンディングを保持しつつ、テスト時のコントラストiveプロンプトガイダンスでポリシーのデノイジング・ダイナミクスを新しい指示に合わせて誘導します。
  • シミュレーションと実環境を合わせた8つの評価で、DeLockは強力なベースラインを上回り、より大量の厳選デモでポストトレーニングした最先端の汎用VLAポリシーに匹敵、あるいは上回る性能を示しました。
  • この手法は、追加の教師信号やデータ拡張に頼る必要を減らし、ポストトレーニング時にモデルの内部にある事前学習知識を活用します。

Abstract

一般用途の視覚-言語-行動(VLA)ポリシーを小規模なデモンストレーションデータセットでポストトレーニングしたものの、新しい指示には応答しなくなり、ポストトレーニング中に見せた行動に限られてしまうことはありませんか?私たちはこの現象を「ロックイン」として特定します。すなわち、少量データに対する教師あり微調整(SFT)を行った後、ポリシーがポストトレーニングデータに過度に特化し、未知の指示へと一般化できなくなるのです。その結果として、概念ロックイン(学習対象のオブジェクト/属性への固執)および空間ロックイン(学習時の空間的ターゲットへの固執)が現れます。既存の多くの対処法は、基盤モデルから得られるものや補助目的に由来する追加の教師信号を導入するか、あるいは一般化を取り戻すためにデータセットを拡張したものに依存しています。本論文では、ポリシーの内部にある事前学習済みの知識で十分であることを示します。DeLockは、ポストトレーニング中の視覚的グラウンディングを保持することでロックインを緩和し、さらにテスト時のコントラスティブなプロンプト誘導を適用して、未知の指示に従ってポリシーのデノイジング・ダイナミクスを導きます。8つのシミュレーションおよび実世界での評価において、DeLockは強力なベースラインを一貫して上回り、大幅に多くの厳選されたデモンストレーションでポストトレーニングされた最先端の一般istポリシーの性能に匹敵する、あるいはそれを上回ります。