要旨: テキストから画像(T2I)生成モデルに関する多数の研究では、アプリケーション性能の向上やモデル挙動の解釈を目的として、クロス注意(cross-attention)マップを利用してきた。しかし、異なる注意ヘッドから得られる注意マップの特徴の違いについては、依然として十分に調査されていない。本研究では、目標となる概念に最も関連するヘッドからのクロス注意マップを選択的に集約することで、視覚的な解釈可能性を向上できることを示す。拡散(diffusion)ベースのセグメンテーション手法DAAMと比較して、提案手法はより高い平均IoUスコアを達成する。また、最も関連するヘッドは、最も関連の低いヘッドよりも概念固有の特徴をより正確に捉えること、さらに選択的集約によってプロンプトの誤解釈を診断するのに役立つことも見出した。これらの結果は、注意ヘッドの選択がT2I生成の解釈可能性と制御可能性を改善する有望な方向性であることを示唆している。
注意マップの選択的集約が、拡散ベースの視覚的解釈を改善する
arXiv cs.CV / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから画像(T2I)への拡散モデルにおいて、異なるヘッドから得られるクロスアテンションマップの挙動を調査し、解釈可能性におけるヘッド単位の違いがこれまで十分に検討されてこなかった点を指摘する。
- 一様に集約するのではなく、対象となる概念に最も関連するヘッドを選ぶことで、クロスアテンションマップを選択的に集約する手法を提案する。
- DAAMと比較して、本提案手法は拡散ベースの視覚的解釈性能を改善し、平均IoUスコアの向上を報告する。
- 著者らは、関連するヘッドが、関連性の低いヘッドよりも概念固有の特徴をより適切に捉えること、また選択的集約がプロンプトの誤解釈を診断するのに役立つことを見出している。
- 全体として、本研究は、注意ヘッドの選択がT2I生成の解釈可能性と制御性の両方を改善する有望な方法であることを示唆している。


