AttentionBender:動画拡散トランスフォーマにおけるクロスアテンションの操作—クリエイティブなプローブとして
arXiv cs.CV / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文では、ブラックボックスの動画生成の内部メカニズムを探るために、Video Diffusion Transformerのクロスアテンションを操作するツール「AttentionBender」を提案しています。
- プロンプトだけでの制御には限界があるため、「research-through-design」のアプローチとしてNetwork Bendingを拡張し、クロスアテンションマップに2D変換(回転・拡大縮小・平行移動など)を適用して生成を調整します。
- 実験では、プロンプト、アテンションマップ操作、注目する層(レイヤーターゲット)を変えながら4,500本以上の動画生成を可視化して、制御性を評価しています。
- 結果として、クロスアテンションは強く絡み合っており、狙った操作が局所的に効かず、直線的な編集よりも分散した歪みやグリッチ系の美学につながりやすいことが示唆されています。
- AttentionBenderは、トランスフォーマのアテンション機構を調べるExplainable AI的なプローブとしての機能と、学習された表現空間の外側にある新しい美学を生み出す創作手法の両方を担うものとして位置づけられています。



