固定された数式を超えて：効率的な拡散モデルのためのデータ駆動型リニア予測器

arXiv cs.LG / 2026/4/30

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この論文は、拡散トランスフォーマ（DiT）のサンプリングコストの高さを問題視し、手作りの特徴キャッシュ予測式が過度なスキップで破綻する点を指摘しています。
提案手法L2P（Learnable Linear Predictor）は、固定係数の代わりに時刻ごとの学習可能な重みを用い、過去の軌跡から現在の特徴を再構成できるキャッシュ枠組みです。
L2Pは単一GPUで約20秒と短時間で学習でき、DiT推論の効率化を目的としています。
実験では大きな改善が示され、FLUX.1-devで4.55×のFLOPs削減と4.15×のレイテンシー短縮を達成し、Qwen-Imageでは最大7.18×の加速でも高い画質を維持して、従来手法の劣化を抑えています。
著者はコードを公開しており、「リニア予測器を学習すること」が拡散モデルの効率的なサンプリングに有効だと結論づけています。

Abstract

拡散トランスフォーマ（DiT）の高いサンプリングコストに対処するために、特徴キャッシングは訓練なしでの高速化手法を提供します。しかし、既存の手法は手作りの予測（フォーキャスト）式に依存しており、過度なスキップが行われる状況では失敗します。本稿では、固定係数を各タイムステップごとの学習可能な重みで置き換える、シンプルなデータ駆動型のキャッシングフレームワークであるL2P（Learnable Linear Predictor）を提案します。単一のGPUで約20秒と短時間で学習するだけで、L2Pは過去の軌跡から現在の特徴を正確に再構成します。L2Pは既存のベースラインを大きく上回ります。FLUX.1-devにおいて、FLOPsを4.55倍削減し、レイテンシを4.15倍高速化します。また、Qwen-Imageモデルでは最大7.18倍の加速下でも高い視覚的忠実性を維持し、先行手法では品質の劣化が目立つことが示されます。これらの結果は、線形予測器を学習することが効率的なDiT推論に対して非常に有効であることを示しています。コードは https://github.com/Aredstone/L2P-Cache で入手できます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/30Dailyインサイトを見る →

Black Hat USA

AI Business

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

固定された数式を超えて：効率的な拡散モデルのためのデータ駆動型リニア予測器

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat USA

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer