Abstract
テキストから画像への拡散モデルは高い視覚的忠実度を達成しているものの、シーンの意味論を正確に制御し、細やかな情動(affective tone)を扱うことは依然として困難です。人間の視覚における情動は、価数(valence)、覚醒度(arousal)、支配性(dominance)を含む文脈的意味の急速な統合と、色の調和、輝度コントラスト、テクスチャの変動、曲率、空間配置といった知覚的手がかりによって生じます。しかし、現在のテキストから画像モデルは、情動的要因と知覚的要因を統一的な表現の中で表すことはほとんどありません。そのため、首尾一貫した、かつ微妙な感情的意図をもつシーンを合成する能力が制限されます。このギャップに対処するため、私たちはEmoSceneを構築します。これは、大規模なデュアルスペース感情データセットであり、情動の次元と知覚属性を共同で符号化し、文脈的意味は補助注釈として提供されます。EmoSceneには、300以上の現実世界のシーンカテゴリにまたがる120万枚の画像が含まれており、それぞれに離散的な感情ラベル、連続的なVAD値、知覚記述子、テキストキャプションが注釈されています。マルチスペースの分析により、離散的な感情がVAD空間にどのように配置されるか、また情動がシーン全体の知覚的要因とどのように体系的に相関するかが明らかになります。EmoSceneをベンチマークするために、私たちは軽量な基準(reference baseline)を提供します。これは、浅いクロスアテンションのモジュレーションによって、凍結した拡散バックボーンへデュアルスペース制御を注入し、デュアルスペースの教師あり学習によって可能になる情動制御可能性を、再現可能なプローブとして示すものです。