概要: 視覚-言語-行動モデル(VLA)は、実演されたタスクでは高い性能を達成することが多い一方で、必要とされる外挿(extrapolation)では大きく苦戦しがちです。すなわち、異なるタスクから学んだスキルを、未知の方法で組み合わせることが難しいのです。たとえば、VLAはクリームチーズをボウルに入れてから、ボウルをキャビネットの上に載せることには成功するかもしれませんが、それでもクリームチーズをキャビネットの上に載せることに失敗することがあります。本研究では、推論時にVLAの内部表現を操作することで、異なるタスクの行動を効果的に再組み合わせられることを示します。具体的には、特定のベースタスクに対して、実演されたすべての軌跡におけるテキストトークンの隠れ状態を平均することで、テキスト潜在(text latent)を同定します。外挿タスクを実行するためには、2つのベースタスクのテキスト潜在を時間的に補間し、それをテキストの隠れ状態に加え戻します。これにより、2つのタスクに由来するサブ行動が順次に活性化されます。本アプローチを、新しく作成したlibero-oodベンチマークを用いて評価します。libero-oodは、標準のLIBEROスイートから外挿された20のタスクを含みます。その結果、libero-oodにおいて、すべてのSOTA VLAは成功率が< 15%であるのに対し、テキスト潜在の補間を用いたpi0は83%の成功率を達成しました。さらに定性的分析では、VLAには空間的な過剰適合の傾向があることが分かりました。すなわち、本物の対象理解や目標理解を達成するのではなく、対象名を実演された位置に結び付けてしまう傾向です。加えて、テキスト潜在をデコードすると、人間が読めないプロンプトが得られるものの、それでも標準LIBEROスイートでVLAを70%の成功率に導くように指示できることを見出しました。これは、プライベートな指示やバックドア攻撃を可能にします。
VLAは制約下でも可能だが、新規指示への汎化は可能—新研究
arXiv cs.RO / 2026/5/4
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚言語行動(VLA)モデルが、学習したスキルを新しい組み合わせとして外挿する課題でなぜ汎化できないのかを検討し、部分行動の移転と再構成に失敗しがちな点を示します。
- 提案は推論時にスキルを組み合わせ直すことで、実演軌跡におけるテキストトークンの隠れ状態から「テキスト潜在表現(text latent)」を作り、基礎タスク間のそれを時間的に補間して部分行動を順次活性化させるというものです。
- 新たに作成されたlibero-oodベンチマーク(LIBEROスイートから外挿した20タスク)では、SOTAのVLAはいずれも成功率15%未満に対し、pi0のテキスト潜在補間は83%の成功率を達成したと報告されています。
- さらに、空間の過学習(物体名が実演された場所に結び付く)傾向や、人間には読めないプロンプトとして復号され得るテキスト潜在表現でも標準LIBEROで70%成功し得ることが示され、バックドア/秘匿指示のリスクを示唆しています。

