ImVideoEdit：2D空間差分アテンションブロックによる画像学習型の動画編集

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ImVideoEditは、従来の動画編集モデルが大量のペア動画データに依存していた課題に対し、画像ペアのみで動画編集能力を学習する効率的フレームワークを提案しています。
凍結した事前学習済み3Dアテンションモジュールを活用し、画像を単一フレームの動画として扱うことで、2D空間の学習を切り出しつつ、元の時間ダイナミクスの保持を狙っています。
提案手法の中心はPredict-UpdateのSpatial Difference Attentionで、進行的に「空間差分」を抽出して注入し、編集をより正確に反映します。
固定的な外部マスクに頼らず、Text-Guided Dynamic Semantic Gatingにより、テキストに基づく適応的・暗黙的な修正を実現します。
13Kの画像ペアを5エポックで学習し、計算コストを低く抑えながら、より大規模な動画データ学習モデルに近い編集の忠実性と時間的一貫性を報告しています。

要旨: 現在の動画編集モデルは、多くの場合高価なペア動画データに依存しており、実用的なスケーラビリティが制限されています。要するに、ほとんどの動画編集タスクは、分離された時空間プロセスとして定式化でき、そこでは事前学習済みモデルの時間ダイナミクスを保持しつつ、空間コンテンツを選択的かつ正確に変更します。この洞察に基づき、我々は画像ペアのみから動画編集能力を完全に学習する効率的なフレームワークであるImVideoEditを提案します。事前学習済みの3D注意（attention）モジュールを凍結し、画像を単一フレームの動画として扱うことで、2Dの空間学習プロセスを分離し、元の時間ダイナミクスの保持を助けます。我々のアプローチの中核は、空間差分を段階的に抽出し注入するPredict-Update Spatial Difference Attentionモジュールです。硬直した外部マスクに依存するのではなく、適応的かつ暗黙的なテキスト駆動の修正を可能にするText-Guided Dynamic Semantic Gatingメカニズムを組み込みます。計算オーバーヘッドが非常に低い条件で、5エポック・13Kの画像ペアのみで学習したにもかかわらず、ImVideoEditは、大規模な動画データセットで学習したより大きなモデルに匹敵する編集の忠実性と時間的一貫性を達成します。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

ImVideoEdit：2D空間差分アテンションブロックによる画像学習型の動画編集

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ