LayerCache：層ごとの速度（Velocity）不均一性を活用した効率的なフローマッチング推論

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、Flow Matching による画像生成が高品質である一方、巨大な Transformer による反復的なノイズ除去が原因で推論コストが大きいと指摘しています。
Transformer の層グループは速度ダイナミクスが大きく異なり、浅い層は安定で攻めたキャッシュが可能な一方、深い層は速度変化が大きく全計算が必要だと分かりました。
この結果に基づき、Transformer を層グループに分割し、各ノイズ除去ステップで層ごとに独立したキャッシュ判断を行う LayerCache を提案しています。
LayerCache は、JVP span（K）の適応的な選択機構を備え、さらに（タイムステップ／層グループ／K）の3次元スケジューリング問題を、貪欲な予算配分アルゴリズムで解きます。
実験（Qwen-Image、1024×1024、50ステップ）では、MeanCache および既存のキャッシュ手法に対して品質と速度の両面で優れ、PSNR は +5.38 dB、LPIPS は 70% 削減、速度は 1.37×向上を達成しています。

要旨: Flow Matchingモデルは、最先端の画像生成品質を達成しますが、大規模Transformerネットワークによる反復的なノイズ除去のために推論コストが大きくなります。Transformer内の異なる層グループは、速度（velocity）ダイナミクスが著しく不均一であることを観察します。浅い層は非常に安定しており、積極的なキャッシングに適しています。一方で深い層は速度が大きく変化するため、完全な計算が必要です。しかし既存のキャッシング手法は、Transformer全体を単一のモノリシックなユニットとして扱い、各タイムステップに対して1回のキャッシュ判断しか行わないため、この不均一性を活用できません。これらの知見に基づき、LayerCacheを提案します。LayerCacheは、Transformerを層グループに分割し、各ノイズ除去ステップごとにグループ単位で独立したキャッシング判断を行う、層を意識したキャッシングの枠組みです。LayerCacheは、グループごとの安定性の測定を活用する適応的なJVPスパンK選択メカニズムを導入し、推定精度と計算削減のバランスを取ります。タイムステップ、層グループ、JVPスパンの3次元のスケジューリング問題を定式化し、貪欲な予算配分アルゴリズムで解きます。Qwen-Image（1024x1024、50ステップ）では、LayerCacheはPSNR 37.46 dB（MeanCacheに対して+5.38 dB）、SSIM 0.9834、LPIPS 0.0178（MeanCacheに対して70%削減）を、1.37xの高速化で達成し、品質と速度のパレートフロンティア上で、これまでのすべてのキャッシング手法を支配します。