AttentionBender：動画拡散トランスフォーマにおけるクロスアテンションの操作—クリエイティブなプローブとして

arXiv cs.CV / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この論文では、ブラックボックスの動画生成の内部メカニズムを探るために、Video Diffusion Transformerのクロスアテンションを操作するツール「AttentionBender」を提案しています。
プロンプトだけでの制御には限界があるため、「research-through-design」のアプローチとしてNetwork Bendingを拡張し、クロスアテンションマップに2D変換（回転・拡大縮小・平行移動など）を適用して生成を調整します。
実験では、プロンプト、アテンションマップ操作、注目する層（レイヤーターゲット）を変えながら4,500本以上の動画生成を可視化して、制御性を評価しています。
結果として、クロスアテンションは強く絡み合っており、狙った操作が局所的に効かず、直線的な編集よりも分散した歪みやグリッチ系の美学につながりやすいことが示唆されています。
AttentionBenderは、トランスフォーマのアテンション機構を調べるExplainable AI的なプローブとしての機能と、学習された表現空間の外側にある新しい美学を生み出す創作手法の両方を担うものとして位置づけられています。

Abstract

本稿では、Video Diffusion Transformers におけるクロス注意（cross-attention）を操作することで、アーティストがブラックボックスの動画生成の内部メカニズムを探ることを助けるツール「AttentionBender」を提示します。生成出力はますます現実味を帯びてきていますが、プロンプトのみの制御では、モデルのマテリアル（素材）プロセスに関する直感を育てることや、その既定の傾向を超えて作業することが難しくなります。自伝的な研究—デザインを通じたアプローチ（research-through-design）を用いて、私たちは Network Bending を基に AttentionBender を設計しました。AttentionBender は、2D 変換（回転、スケーリング、並進など）をクロス注意マップに適用し、生成を調整します。私たちは、プロンプト、操作、レイヤーのターゲットをまたいで 4,500 件超の動画生成を可視化することで、AttentionBender を評価しました。その結果は、クロス注意が高度に絡み合っていることを示唆しています。対象を絞った操作は、多くの場合、明確で局所的な制御に抵抗し、線形編集では得られない分散した歪みや、グリッチ的な美学を生み出します。AttentionBender は、トランスフォーマの注意機構に対する Explainable AI 的なプローブとして機能するだけでなく、モデルが学習した表象空間を超えた新しい美学を生み出すための創造的手法としても貢献します。