VibeFlow：自己教師あり学習による汎用的なビデオ・クロマルックス（chroma-lux）編集

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VibeFlowは、構造的および時間的整合性を維持しながら、照明と色を変更することでビデオのクロマルックス編集の課題に取り組みます。
本論文では、事前学習済みのビデオ生成モデルを活用する自己教師ありアプローチを導入し、分離されたデータ摂動（disentangled data perturbation）パイプラインによって、ソース動画から構造を組み合わせ直し、参照画像から色・照明の手がかりを取り込む方法を提案します。
時間的および構造的な正確さを向上させるために、VibeFlowは残差ボリューム速度場（Residual Velocity Fields）と、構造歪み整合性（Structural Distortion Consistency）正則化を追加し、フローに基づく手法で一般的な離散化の問題を緩和します。
本フレームワークは、合成のペアデータによる高コストな教師あり学習の必要性をなくし、リライト（relighting）、再着色（recoloring）、低照度強調（low-light enhancement）、昼夜変換（day-night translation）、物体固有の色編集といったタスクに対してゼロショットで汎化できるよう設計されています。
著者らは、VibeFlowが計算負荷を抑えつつ高い視覚品質を実現すると報告しており、再現用の公開プロジェクトWebページも提供しています。

要旨: 照明と色を変更しつつ構造的および時間的な忠実性を維持することを目的とした、ビデオのクロマ・ラックス編集は、依然として大きな課題である。既存手法は通常、高価な教師あり学習を、合成のペアデータに依存して行うものとなっている。本論文では、事前学習済みの動画生成モデルが持つ本質的な物理的理解を解き放つ、新しい自己教師ありフレームワーク VibeFlow を提案する。色と光の遷移をゼロから学習するのではなく、分離されたデータ摂動パイプラインを導入し、モデルに対して、ソース動画から構造を適応的に再組み合わせ、参照画像から色・照明の手がかりを取り込ませることで、自己教師ありの枠組みにおいて頑健な分離を実現する。さらに、フローベースモデルに固有の離散化誤差を是正するために、構造歪み整合レギュラライゼーション（Structural Distortion Consistency Regularization）と併せて Residual Velocity Fields を導入し、厳密な構造保持と時間的な整合性を保証する。本フレームワークは、高価な学習リソースの必要性をなくし、ゼロショットで多様な応用へ一般化する。具体的には、動画のリライティング、再着色、低照度の強調、昼夜変換、そしてオブジェクト固有の色編集などに対応する。大規模な実験により、VibeFlow が計算オーバーヘッドを大幅に削減しつつ、目を引く視覚品質を達成することが示される。本プロジェクトは https://lyf1212.github.io/VibeFlow-webpage で公開されている。