AVControl:音声・映像制御を学習するための効率的フレームワーク
arXiv cs.CV / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AVControlは、LTX-2を用いた動画生成の音声・映像制御を学習するための、軽量で拡張可能なフレームワークを導入する。各モダリティは、アーキテクチャ変更を必要とせず、それぞれ別個のLoRAとして学習される。
- 手法では「並列キャンバス(parallel canvas)」を用い、注意層(attention layers)に参照信号を追加トークンとして注入することで、画像におけるin-context手法を動画へ拡張した場合に失敗する構造的制御を可能にする。
- VACE Benchmarkでの実験により、AVControlは、深度・姿勢ガイド付き生成タスク(インペインティングおよびアウトペインティングを含む)において、先行のベースラインを上回ることが示される。さらに、カメラ制御や音声・映像ベンチマークでも競争力のある結果を達成している。
- フレームワークは、多数の独立して学習した制御モダリティをサポートする。空間的制御(深度/姿勢/エッジ)、内在パラメータ込みのカメラ軌道、疎なモーション、動画編集などが含まれる。これらを共同生成のためのモジュール式の音声・映像制御として提示し、この方向性では報告上初期の部類に入るという。
- 論文は効率性を強調しており、各モダリティは小規模データセットで学習でき、数百〜数千ステップで収束すると報告している。また、公表コードと学習済みLoRAチェックポイントも含まれている。



