AI Navigate

Delta-K: クロスアテンション拡張によるマルチインスタンス生成の向上

arXiv cs.AI / 2026/3/12

📰 ニュースModels & Research

要点

  • Delta-Kはバックボーンに依存しない、プラグアンドプレイ推論フレームワークで、共有されたクロスアテンションキー空間で直接操作することにより、マルチインスタンス生成を改善するよう設計されています。
  • 視覚言語モデルから差分キー ΔK を導出し、欠落概念の意味的特徴を符号化し、この信号を拡散過程の初期の意味的計画段階で注入します。
  • Delta-Kは動的に最適化されたスケジューリング機構を用いて、整合性のあるアンカー周りの拡散ノイズを安定化させつつ、既存の概念を保持します。追加の訓練、マスク、またはアーキテクチャの変更を必要としません。
  • 実験はDelta-Kの汎用性を示しており、現代のDiTモデルと古典的なU-Netアーキテクチャの双方で構成的整合性を一貫して改善します。
要旨: 拡散モデルはテキストから画像への合成に優れている一方で、複雑なマルチインスタンスのシーンを合成する際には概念の欠落が生じがちです。既存の訓練不要手法は、注意機構を再スケーリングすることでこれを解決しようとしますが、それは意味的な一貫した表現を確立することなく、むしろ非構造的なノイズを悪化させるだけです。これに対処するため、Delta-K はバックボーンに依存せず、プラグアンドプレイの推論フレームワークとして欠落を扱う提案です。具体的には、視覚言語モデルを用いて、欠落概念の意味的特徴を符号化する差分キー ΔK を抽出します。この信号は拡散過程の初期の意味的計画段階で注入されます。動的に最適化されたスケジューリング機構に支えられ、Delta-K は拡散ノイズを安定した構造的アンカーへと結びつけつつ、既存の概念を保持します。広範な実験は、我々のアプローチの一般性を示しています。Delta-K は現代の DiT モデルと古典的な U-Net アーキテクチャの双方で、空間マスク、追加の訓練、またはアーキテクチャの変更を必要とせず、構成的整合性を一貫して改善します。