AI Navigate

LADR: 局所性を考慮した動的リスキューによる拡散型大規模言語モデルを用いた効率的なテキストから画像生成

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LADRは、画像の2次元空間的局所性を活用して、テキストから画像生成に用いられる離散拡散言語モデルの推論を加速する、トレーニング不要の手法である。
  • この手法は、生成のフロンティア、すなわちすでに観測したピクセルに隣接する領域でのトークン回復を優先し、形態学的近傍識別とリスク制限付きフィルタリングを用いて誤差の伝搬を最小化する。
  • 本手法は、多様体整合性を保つ逆スケジューリングを導入し、拡散経路を加速されたマスク密度と整合させる。これにより、4つのベンチマークで約4倍のスピードアップを実現する。
  • 高速化にもかかわらず、LADRは生成忠実度を維持またはむしろ向上させ、特に空間推論タスクで顕著である。効率と品質のトレードオフを強力に提供する。

要約: 離散拡散言語モデルは、統一されたマルチモーダル生成の魅力的なパラダイムとして現れているが、反復デコードに起因する高い推論待機時間により展開が阻まれている。既存の加速戦略は多くの場合、高価な再訓練を必要とするか、視覚データに内在する2Dの空間的冗長性を活用できない。これに対処するため、Locality-Aware Dynamic Rescue(LADR)を提案する。これはトレーニングを必要としない手法で、画像の空間マルコフ性を利用して推論を高速化する。LADRは、生成フロンティアに位置するトークンの回復を優先し、観測済みピクセルに空間的に隣接する領域において情報利得を最大化します。具体的には、我々の手法は候補トークンを特定するために形態学的近傍識別を統合し、誤りの伝播を防ぐためのリスク制約付きフィルタリング機構を採用し、加速されたマスク密度に合わせて拡散軌道を整合させる多様体整合的な逆スケジューリングを活用する。四つのテキストから画像生成ベンチマークにおける広範な実験により、我々のLADRは標準的なベースラインより約4倍のスピードアップを達成することを示した。驚くべきことに、特に空間推論タスクにおいて、生成忠実度を保持または向上させることができ、効率と品質の最先端のトレードオフを提供する。