ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks
arXiv cs.CV / 4/10/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- ImVideoEditは、従来の動画編集モデルが大量のペア動画データに依存していた課題に対し、画像ペアのみで動画編集能力を学習する効率的フレームワークを提案しています。
- 凍結した事前学習済み3D attentionモジュールを活用し、画像を単一フレーム動画として扱うことで、2D空間の学習を切り出して元の時間ダイナミクスの保持を狙っています。
- 提案手法の中心はPredict-UpdateのSpatial Difference Attentionで、進行的に「空間差分」を抽出して注入し、編集をより正確に反映します。
- rigidな外部マスクに頼らず、Text-Guided Dynamic Semantic Gatingによりテキストに基づく適応的・暗黙的な修正を実現します。
- 13Kの画像ペアを5エポックで学習し、計算コストを低く抑えながら、より大規模な動画データ学習モデルに近い編集の忠実性と時間的一貫性を報告しています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

GLM 5.1 tops the code arena rankings for open models
Reddit r/LocalLLaMA

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

My Bestie Built a Free MCP Server for Job Search — Here's How It Works
Dev.to
can we talk about how AI has gotten really good at lying to you?
Reddit r/artificial