Delta-K: クロスアテンション拡張によるマルチインスタンス生成の向上

arXiv cs.AI / 2026/3/12

📰 ニュースModels & Research

共有:

要点

Delta-Kはバックボーンに依存しない、プラグアンドプレイ推論フレームワークで、共有されたクロスアテンションキー空間で直接操作することにより、マルチインスタンス生成を改善するよう設計されています。
視覚言語モデルから差分キー ΔK を導出し、欠落概念の意味的特徴を符号化し、この信号を拡散過程の初期の意味的計画段階で注入します。
Delta-Kは動的に最適化されたスケジューリング機構を用いて、整合性のあるアンカー周りの拡散ノイズを安定化させつつ、既存の概念を保持します。追加の訓練、マスク、またはアーキテクチャの変更を必要としません。
実験はDelta-Kの汎用性を示しており、現代のDiTモデルと古典的なU-Netアーキテクチャの双方で構成的整合性を一貫して改善します。

要旨: 拡散モデルはテキストから画像への合成に優れている一方で、複雑なマルチインスタンスのシーンを合成する際には概念の欠落が生じがちです。既存の訓練不要手法は、注意機構を再スケーリングすることでこれを解決しようとしますが、それは意味的な一貫した表現を確立することなく、むしろ非構造的なノイズを悪化させるだけです。これに対処するため、Delta-K はバックボーンに依存せず、プラグアンドプレイの推論フレームワークとして欠落を扱う提案です。具体的には、視覚言語モデルを用いて、欠落概念の意味的特徴を符号化する差分キー ΔK を抽出します。この信号は拡散過程の初期の意味的計画段階で注入されます。動的に最適化されたスケジューリング機構に支えられ、Delta-K は拡散ノイズを安定した構造的アンカーへと結びつけつつ、既存の概念を保持します。広範な実験は、我々のアプローチの一般性を示しています。Delta-K は現代の DiT モデルと古典的な U-Net アーキテクチャの双方で、空間マスク、追加の訓練、またはアーキテクチャの変更を必要とせず、構成的整合性を一貫して改善します。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

Delta-K: クロスアテンション拡張によるマルチインスタンス生成の向上

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer