AVControl：音声・映像制御を学習するための効率的フレームワーク

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

AVControlは、LTX-2を用いた動画生成の音声・映像制御を学習するための、軽量で拡張可能なフレームワークを導入する。各モダリティは、アーキテクチャ変更を必要とせず、それぞれ別個のLoRAとして学習される。
手法では「並列キャンバス（parallel canvas）」を用い、注意層（attention layers）に参照信号を追加トークンとして注入することで、画像におけるin-context手法を動画へ拡張した場合に失敗する構造的制御を可能にする。
VACE Benchmarkでの実験により、AVControlは、深度・姿勢ガイド付き生成タスク（インペインティングおよびアウトペインティングを含む）において、先行のベースラインを上回ることが示される。さらに、カメラ制御や音声・映像ベンチマークでも競争力のある結果を達成している。
フレームワークは、多数の独立して学習した制御モダリティをサポートする。空間的制御（深度／姿勢／エッジ）、内在パラメータ込みのカメラ軌道、疎なモーション、動画編集などが含まれる。これらを共同生成のためのモジュール式の音声・映像制御として提示し、この方向性では報告上初期の部類に入るという。
論文は効率性を強調しており、各モダリティは小規模データセットで学習でき、数百〜数千ステップで収束すると報告している。また、公表コードと学習済みLoRAチェックポイントも含まれている。