ImVideoEdit:2D空間差分アテンションブロックによる画像学習型の動画編集

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ImVideoEditは、従来の動画編集モデルが大量のペア動画データに依存していた課題に対し、画像ペアのみで動画編集能力を学習する効率的フレームワークを提案しています。
  • 凍結した事前学習済み3Dアテンションモジュールを活用し、画像を単一フレームの動画として扱うことで、2D空間の学習を切り出しつつ、元の時間ダイナミクスの保持を狙っています。
  • 提案手法の中心はPredict-UpdateのSpatial Difference Attentionで、進行的に「空間差分」を抽出して注入し、編集をより正確に反映します。
  • 固定的な外部マスクに頼らず、Text-Guided Dynamic Semantic Gatingにより、テキストに基づく適応的・暗黙的な修正を実現します。
  • 13Kの画像ペアを5エポックで学習し、計算コストを低く抑えながら、より大規模な動画データ学習モデルに近い編集の忠実性と時間的一貫性を報告しています。

要旨: 現在の動画編集モデルは、多くの場合高価なペア動画データに依存しており、実用的なスケーラビリティが制限されています。要するに、ほとんどの動画編集タスクは、分離された時空間プロセスとして定式化でき、そこでは事前学習済みモデルの時間ダイナミクスを保持しつつ、空間コンテンツを選択的かつ正確に変更します。この洞察に基づき、我々は画像ペアのみから動画編集能力を完全に学習する効率的なフレームワークであるImVideoEditを提案します。事前学習済みの3D注意(attention)モジュールを凍結し、画像を単一フレームの動画として扱うことで、2Dの空間学習プロセスを分離し、元の時間ダイナミクスの保持を助けます。我々のアプローチの中核は、空間差分を段階的に抽出し注入するPredict-Update Spatial Difference Attentionモジュールです。硬直した外部マスクに依存するのではなく、適応的かつ暗黙的なテキスト駆動の修正を可能にするText-Guided Dynamic Semantic Gatingメカニズムを組み込みます。計算オーバーヘッドが非常に低い条件で、5エポック・13Kの画像ペアのみで学習したにもかかわらず、ImVideoEditは、大規模な動画データセットで学習したより大きなモデルに匹敵する編集の忠実性と時間的一貫性を達成します。