YOSE:必要なトークンだけを選択することで、DiTベースの動画オブジェクト除去を効率化

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、マスクに基づく編集で生じる高い推論レイテンシを抑えるために、DiTベースの動画オブジェクト除去向けの効率化ファインチューニング手法「YOSE」を提案する。
  • YOSEは、Batch Variable-length Indexing(BVI)によって、マスク情報に基づき必須の時空間トークンのみを適応的に選択し、サンプルごとに可変長のトークン処理を可能にする。
  • さらにDiffusion Process Simulator(DiffSim)を導入し、非マスク領域がDiTの自己注意に与える影響を近似して、マスク領域の意味的一貫性を保つ。
  • 実験では、推論時間がマスク領域サイズに対してほぼ線形にスケールする「マスク対応の高速化」を示し、70%のケースで最大2.5×の高速化を達成しつつ、ベースラインと同等に近い画質を維持する。
  • 著者らは、提示されたGitHubリンクを通じて実装コードを公開している。

要旨: 近年、拡散トランスフォーマ(DiT)に基づく動画生成技術の進展により、動画からの対象物除去に関して印象的な成果が報告されています。しかし、これらの手法はいまだに大きな推論遅延の問題を抱えています。たとえば、MiniMax Removerは最先端の視覚品質を達成しているものの、実行速度は主に全ての時空間トークン空間に対する密な計算に起因して、実質的に約10FPSにとどまっています。実際には、処理が必要なのはごく小さいマスク領域のみであるにもかかわらずです。本論文では、効率的な微調整フレームワークであるYOSE(You Only Select Essential Tokens)を提案します。YOSEは2つの主要コンポーネントを導入します:Batch Variable-length Indexing(BVI)とDiffusion Process Simulator(DiffSim)モジュールです。BVIは、マスク情報に基づいて本質的なトークンを適応的に選択する、微分可能な動的インデクシング演算子であり、サンプル間で可変長のトークン処理を可能にします。DiffSimは、非マスクトークンに対する拡散過程の近似メカニズムを提供し、DiTの自己注意において非マスク領域が及ぼす影響をシミュレートすることで、マスクトークンの意味的一貫性を維持します。これらの設計により、YOSEはマスクを考慮した加速を実現し、推論時間はマスク領域の大きさに対して概ね線形にスケールします。一方で、計算が定数でありマスクサイズに依存しない、フルトークンの拡散手法とは対照的です。大規模な実験により、YOSEは視覚品質をベースラインと同等に保ちながら、70%のケースで最大2.5倍の速度向上を達成することが示されています。コードは以下で入手可能です:https://github.com/Wucy0519/YOSE-CVPR26。

YOSE:必要なトークンだけを選択することで、DiTベースの動画オブジェクト除去を効率化 | AI Navigate