計算資源1%でゼロショットの被写体主導型動画生成を学習する

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、被写体主導型動画生成において、被写体ごとの微調整を避けつつ、大規模な被写体—動画ペアの学習を不要にするゼロショット手法を提案しています。
タスクを「被写体のアイデンティティ注入（被写体画像ペアから学習）」と「少数の任意動画による運動特性の保持」という2つに分解します。
ランダムな参照フレームのサンプリングや画像トークンのドロップアウトを用いた確率的最適化により、単純な先頭フレームのコピーを抑え、汎化を高めています。
実験ではCogVideoX-5Bにおいて、200Kの被写体画像ペアと4,000の任意動画で単一モデルを学習し、必要計算は288 A100 GPU時間に抑えられ、従来のゼロショット基準に対して約1%の計算で、被写体の忠実度と動きの質で競争力のある結果を示しています。
同じ手順がWan 2.2-5Bにも移植できると報告されており、動画生成モデル群全体への適用可能性が示唆されます。