Control-DINO：制御可能な画像から動画への拡散のための特徴空間コンディショニング

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Control-DINOは、知覚・幾何・意味論的な信号だけに頼るのではなく、自己教師ありの特徴埋め込み（例：DINO）を、事前学習済みの画像から動画への拡散モデルに対するより一般的な条件付け信号として用いることを提案する。
この手法は、外観情報（スタイル／照明）を、保持すべき他のシーン特徴から切り離すことを狙った軽量なアーキテクチャと学習戦略を導入し、スタイライズやリライティングのようなタスクにおける制御性を向上させる。
論文では、DINO特徴が再構成に非常に有効である一方で、その絡み合った（エンタングルした）性質が生成能力を制限し得ると主張し、この限界を的を絞った条件付け設計によって解決する。
実験結果では、空間解像度を低くしても、より高い特徴次元によって相殺でき、明示的な空間入力からの生成的レンダリングにおける制御性の維持または向上につながることが示される。
これらの結果は、より頑健な動画領域への転送や、動画から3D生成を可能にし、特徴条件付きの動画拡散における実用的な制御利用を拡張するものとして位置付けられている。

概要: ビデオモデルは近年、コンテンツ生成、ノベルビュー合成、そしてより広くはワールドシミュレーションといった問題に対して成功裏に適用されてきました。生成や転送における多くのアプリケーションは、これらのモデルを条件付けすることで成立しており、通常は知覚的、幾何学的、あるいは単純なセマンティック信号を用います。これらは本質的に、生成的なレンダラとしてモデルを利用することに相当します。一方、大規模な自己教師あり学習によって画像やポイントクラウドから得られる高次元特徴は、視覚モデルに対する汎用的なインターフェースとして、ますます広く使われるようになっています。この2つの関連は、被写体特化の編集、動画拡散モデルの整合および学習といった文脈では検討されてきましたが、事前学習済みの動画拡散モデルに対する、より一般的な条件付け信号の役割としてはまだ探求されていません。DINOのような自己教師あり学習で得られる特徴は、シーンのスタイル、照明、セマンティクスに関する絡み合った情報を多く含んでいます。これにより復元タスクには非常に優れていますが、生成能力は制限されます。本論文では、これらの特徴を用いて、動画ドメイン転送や3Dからの動画生成といったタスクをどのように実現できるかを示します。我々は、外観（appearance）を、保持したい他の特徴から分離する軽量なアーキテクチャと学習戦略を導入し、スタイライゼーションや再照明（relighting）のような外観変化に対して頑健な制御を可能にします。さらに、低い空間解像度は、より高い特徴の次元性によって補うことができ、明示的な空間表現からの生成的レンダリングにおいて制御性が向上することを示します。