マルチスケールサンプリングとワンステップ蒸留による拡散デコーダの高速化

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • 著者らは、画像トークン化に用いられる拡散デコーダのための二段階の加速フレームワークを提案し、マルチスケールサンプリングとワンステップ蒸留を組み合わせている。
  • マルチスケールサンプリングは粗い解像度でデコードを開始し、各段階で解像度を段階的に2倍にすることで、標準的なフル解像度サンプリングに比べて理論的に O(log n) のスピードアップを達成する。
  • 各スケールで、拡散デコーダは単一ステップのデノイニングモデルへ蒸留され、スケールごとに1回のフォワードパスでの高速再構成を可能にする。
  • 複合的なアプローチは、出力品質の低下を最小限に抑えつつデコード時間をオーダーオブマグニチュードで削減し、実用的でリアルタイム性のある大規模な画像トークナイザーを実現し、効率的な視覚トークナイゼーションと下流生成における今後の研究に影響を与える。

概要: 画像トークン化は、視覚入力をピクセルと生成モデルの中間信号として機能するコンパクトな表現へマッピングすることにより、現代の生成モデルにおいて中心的な役割を果たします。拡散法ベースのデコーダは、潜在表現からの画像復元を高い知覚忠実度で実現するため、最近画像トークン化に採用されています。下流の生成に用いられる拡散モデルとは対照的に、これらのデコーダは内容生成よりも忠実な再構成に専念しています。しかし、それらの反復的なサンプリングプロセスは大きな遅延を引き起こし、リアルタイムまたは大規模なアプリケーションには実用的でありません。本研究では、この非効率性を解消するための二段階の加速フレームワークを提案します。まず、粗い解像度からデコードを開始し、各段階で解像度を倍増させて出力を段階的に高精細化する多尺度サンプリング戦略を提案します。これにより、標準的な全解像度サンプリングと比較して理論的な加速が \mathcal{O}(\log n) となります。次に、各スケールで拡散デコーダを単一ステップのデノイズモデルへ蒸留し、各スケールにつき1回のフォワードパスで高速かつ高品質な再構成を実現します。これらの手法を組み合わせると、出力品質の低下はほとんどなく、デコード時間を桁違いに削減します。私たちのアプローチは、効率的でありながら表現力豊かな画像トークナイザーへ向けた現実的な道筋を提供します。本研究が、効率的な視覚トークン化および下流生成に関する今後の研究の基盤となることを期待します。