Fast-dVLM: 自己回帰型VLMからの直接変換による効率的ブロック拡散VLM
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Fast-dVLMは、KVキャッシュに対応した並列デコーディングとスペキュラティブなブロックデコーディングを可能にすることで、自己回帰型VLMよりも推論スループットを向上させる効率的なブロック拡散の視覚言語モデルを提案する。
- 本研究は、拡散をマルチモーダルVLMに適応する際の主要な課題に取り組む。すなわち、事前学習済みのマルチモーダル能力を保持しつつ、離散的なテキストトークンと並行して連続的な視覚表現を扱うことが含まれる。
- 本研究では、AR(自己回帰)から拡散への変換戦略を2通り比較し、類似の学習予算の下では、自己回帰型VLM全体を1段階で直接変換する方法が、2段階の「テキストのみ」の拡散適応よりも大幅に効率的であることを見出す。
- Fast-dVLMは、ブロック拡散をVLM設定で有効にするために、複数のマルチモーダル拡散適応(例:ブロックサイズのアニーリング、因果文脈アテンション、オートトランケーション・マスキング、視覚の効率的連結)を含む。
- 11のマルチモーダルベンチマークにおける実験では、自己回帰デコーディングと同等の生成品質が確認され、SGLangの統合とFP8量子化によりエンドツーエンドで6倍以上の速度向上を達成する。



