LIVE：指示に基づくビデオ編集のための画像操作プリオールの活用（ライブ）

arXiv cs.CV / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文は、動画編集のための高価な注釈コストという課題に対して、大規模で高品質な画像編集データと動画データセットを組み合わせて能力を高める共同学習フレームワーク「LIVE」を提案しています。
静止画像と動画像の領域差に対処するため、LIVEはフレームごとのトークンノイズ戦略を導入し、事前学習済みの動画生成モデルを活用してもっともらしい時間的変化を生成します。
公開データセットのクリーニングと自動化されたデータパイプラインに加え、動画編集能力を段階的に“アニーリング”する2段階学習を採用しています。
既存の動画データセットでは不足しがちな、画像編集で一般的な60件超の難易度タスクを対象にした新しい評価ベンチマークを構築し、比較実験とアブレーション実験で最先端性能を示しています。
ソースコードは公開予定であり、さらなる研究や再現が可能になります。

要旨: 動画編集は、ユーザの意図に従って入力動画を変更することを目的とします。近年、エンドツーエンド学習手法が広く注目を集めており、動画生成モデルや編集モデルによってペアとなる動画編集データを構築しています。しかし、画像編集と比べて動画データの高い注釈コストは、動画生成モデルへの依存や手作業の注釈に頼る場合、動画編集データセットの規模、品質、そしてタスク多様性を深刻に制約します。このギャップを埋めるために、我々は、動画データセットと並行して大規模で高品質な画像編集データを活用する共同学習フレームワーク LIVE を提案します。静止画像と動的動画の間のドメイン不一致を緩和するために、フレーム単位のトークンノイズ戦略を導入します。これは、特定フレームの潜在表現を推論トークンとして扱い、大規模に事前学習された動画生成モデルを活用してもっともらしい時間的変換を生成するものです。さらに、公的データセットのクリーニングと自動化されたデータパイプラインの構築を通じて、動画編集能力を段階的に調整するための二段階学習戦略を採用します。加えて、画像編集において一般的である一方、既存の動画データセットでは乏しい 60 以上の難度の高いタスクを網羅する包括的な評価ベンチマークを厳選しています。広範な比較実験およびアブレーション実験により、本手法が最先端の性能を達成することが示されています。ソースコードは公開されます。