特権的な先見性の蒸留:世界行動モデルに対するゼロコストな未来補正

arXiv cs.RO / 2026/4/29

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 学習中に未来の動画と行動を同時に予測する「世界行動モデル」では、未来予測ブランチが推論時に必須ではない可能性が示されており、外しても一般的なマニピュレーション・ベンチマークでほとんど損失がないと報告されています。
  • 本論文は、未来情報が予測対象でも単なる正則化でもなく、行動デノイジングに対する「行動条件付きの補正」として働くという見方を提示します。
  • そこで「privileged foresight」を、真の未来を使った予測と現在フレームだけを使った予測の差として定義される残差として定式化し、Privileged Foresight Distillation(PFD)を提案します。
  • PFDは、未来動画を生成しない学習時の教師からその残差を、現在のみで動作する小型アダプタへ蒸留し、推論では未来動画を扱いません。
  • LIBEROとRoboTwinの実験では、現在のみの推論インターフェースを維持しつつ、追加レイテンシーがほぼ無視できる状態で一貫した改善が得られ、その効果が単なる容量や正則化の副作用ではないことも検証されています。

要旨: 世界アクションモデルは学習中に将来の動画とアクションを共同で予測し、その結果、将来予測ブランチが実際にどのような役割を果たしているのかが未解決の問いとして残されている。最近の発見によれば、このブランチは推論時に取り除いても、一般的な操作ベンチマークでの損失はほとんど、あるいは全くなく、将来の情報が共有された視覚バックボーンに対する単なる正則化として働いている可能性が示唆される。そこで本研究では、代わりに、共同学習によってアクション条件付きの補正が誘発され、その補正に対して将来の観測がアクションのノイズ除去へと特権的に寄与し、また現在のみの方策はこの補正を部分的にしか捉えられない、という仮説を提案する。説明を厳密にするために、特権的先見(privileged foresight)を、アクションのノイズ除去方向における残差として定式化する――すなわち、真の将来を与えたときにモデルが予測するものと、現在フレームのみを与えたときに予測するものとの差――そして、訓練時の教師からこの残差を、現在のみの学生へ小さなアダプタとして転送する
\emph{Privileged Foresight Distillation (PFD)} を導入する。教師と学生は同一のバックボーンを共有し、動画トークンに対する注意マスクのみが異なる。将来の動画は推論時には一切生成されない。制御された実験により、この向上が、容量や正則化の副作用ではなく、真に将来条件付けされた補正を反映していることを検証する。実験的に、PFD は LIBERO および RoboTwin の操作ベンチマークで一貫した改善を達成しつつ、ほとんど無視できる追加遅延で現在のみの推論インターフェースを維持する。本見解は、世界アクションモデルにおける将来情報の役割を次のように捉え直す。すなわち、予測すべき目標でもなく、吸収すべき正則化でもなく、圧縮可能な補正として蒸留されるべきもの、という位置づけである。