CoD-Lite:リアルタイム・拡散モデルに基づく生成画像圧縮

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、拡散トランスフォーマが大きすぎて汎化が難しい状況を対象とした、リアルタイムかつ軽量な拡散ベースの生成画像圧縮コーデック「CoD-Lite」を提案する。
  • 実験の結果、小規模モデルでは、生成向けの事前学習よりも圧縮向けの事前学習の方が効果的であり、軽量コーデックの性能が向上することが示される。
  • 著者らは、標準的な拡散生成ではグローバル注意が有効だが、蒸留(distillation)と組み合わせれば、圧縮用途では軽量な畳み込みアーキテクチャで十分であることを見出す。
  • 得られたワンステップの畳み込み拡散コーデックは、同等のFIDにおいてMS-ILLMと比べてビットレートを85%削減しつつ、リアルタイム性能を達成したと報告されている(1080pでエンコード60 FPS、デコード42 FPS)。
  • 実装はGitHubで公開されており(microsoft/GenCodec/CoD_Lite)、さらなる評価や実運用パイプラインへの統合の可能性がある。

要旨: 最近の高度な拡散手法では、拡散トランスフォーマをスケーリングすることで強力な生成的事前知識(generative priors)を導くのが一般的です。しかし、このスケーリングは、軽量なモデルを要求する実時間圧縮シナリオに適用する際には汎化できません。本論文では、2つの重要な問いに取り組むことで、実時間かつ軽量な拡散コーデックの設計を探究します。第一に、拡散の事前学習は軽量な拡散コーデックに有益なのでしょうか。体系的な分析の結果、生成志向の事前学習は小さなモデル規模では効果が低い一方で、圧縮志向の事前学習は一貫してより良い性能をもたらすことが分かりました。第二に、トランスフォーマは必須なのでしょうか。標準的な生成においては大域的注意が重要である一方、蒸留と組み合わせれば、圧縮志向の拡散では軽量な畳み込みで十分であることを見出しました。これらの知見に基づき、ワンステップの軽量畳み込み拡散コーデックを確立し、1080pにおいて実時間 60~FPS のエンコードと 42~FPS のデコードを達成します。さらに、蒸留および敵対的学習によって強化することで、本提案コーデックはMS-ILLMと同等のFIDにおいてビットレートを85%削減し、生成的圧縮と実用的な実時間展開とのギャップを埋めます。コードは https://github.com/microsoft/GenCodec/CoD_Lite で公開されています