要旨: 視覚-言語-行動(VLA)モデルは、ロボットのマニピュレーションのための身体性を持つ基盤モデルとして登場しつつありますが、その導入には新たな忘却(アンラーニング)の課題が伴います。すなわち、知覚、言語グラウンディング、行動制御を劣化させることなく、危険な、紛れ込みのある(スパリアスな)、またはプライバシーに敏感な振る舞いを除去する必要があります。OpenVLAスタイルのポリシーでは、振る舞いは結合された視覚エンコーダ、クロスモーダル・プロジェクタ、トークン化されたロボット行動を予測する言語バックボーンによって生成されます。そのため、不適切な知識は、単一のモジュールに閉じ込められるのではなく、知覚、アライメント、推論/行動の各層に分散し得ます。結果として、視覚スタックのみに対して、あるいは言語バックボーンのみに対して部分的に忘却を適用するだけでは不十分であることが多く、一方で、単体の視覚モデルや言語モデルを対象に設計された従来の忘却ベースラインは、残存する忘却(忘れ残し)が生じたり、身体性のある設定では不要な有用性の損失を招いたりする可能性があります。私たちは、VLA-Forgetを提案します。これは、知覚に対して比率に配慮した選択的編集とクロスモーダルの特異性を組み合わせ、ユーティリティを保った忘却のために、層選択的な推論/行動の忘却を行うハイブリッドな忘却フレームワークです。VLA-Forgetは、視覚エンコーダ、プロジェクタ、上位の行動生成トランスフォーマブロックに対する段階的な更新を通じて、3つの目的、すなわちターゲットされた忘却、知覚の保持、推論の保持を同時に最適化します。忘却セットの振る舞いプローブおよび保持タスクの評価において、VLA-Forgetは、強力な忘却ベースラインに比べて、忘却の有効性を10%向上させ、知覚の特異性を22%保持し、推論とタスク成功を9%保持し、量子化後の回復を55%削減します。
VLA-Forget: 身体化基盤モデルにおける視覚-言語-行動のアンラーニング
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚-言語-行動(VLA)身体化基盤モデルに対する特定の「アンラーニング」課題を特定する。すなわち、危険・不適切な、またはプライバシーに敏感な振る舞いを取り除こうとすると、知覚、言語のグラウンディング、あるいは行動制御が意図せず劣化する可能性がある。
- 問題のある振る舞いに関する知識は、視覚エンコーダ、クロスモーダル・プロジェクタ、言語バックボーン/推論層、そして行動生成ブロックに分散していることが多いため、単一モジュールあるいは従来型(単体の視覚/言語)アンラーニングでは不十分だと主張する。
- 提案手法であるVLA-Forgetは、知覚コンポーネントに対する比率を考慮した選択的編集と、上位トランスフォーマブロックにおける層選択的な推論/行動のアンラーニングを組み合わせたハイブリッド戦略を用いる。
- VLA-Forgetは、視覚エンコーダ、プロジェクタ、行動生成層にまたがる段階的な更新を通じて、「目標とする忘却」「知覚の保持」「推論の保持」を同時に最適化する。
- 実験結果では、強力なアンラーニング基準と比べて、忘却の有効性(+10%)、知覚の特異性保持(+22%)、保持された推論/タスク成功(+9%)が向上し、事後の量子化回復の必要性が減少(−55%)したことが報告されている。




