マルチモーダル知覚に導かれた二条件付き拡散モデルによる画像美学の向上
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル美的知覚を用いて美的向上を目的とした画像編集を導く拡散ベースのモデルである Dual-supervised Image Aesthetic Enhancement (DIAE) を提案します。
- それは Multimodal Aesthetic Perception (MAP) を導入し、あいまいな美的指示を、複数の美的属性にわたる詳細な美的指示と、テキスト–画像ペアから導出されるマルチモーダル制御信号を介して明示的な指針へと変換します。
- 完全にペアリングされたデータが不足している問題に対処するため、意味は同一だが美的品質が異なる「不完全にペアリングされた」データセット IIIADEData を収集し、弱教師付き訓練のための二重分岐監視フレームワークを採用します。
- 実験結果は、DIAE がベースラインを上回り、画像美学スコアと内容一貫性スコアの両方で優れた性能を示し、提案手法の有効性を示しています。
要旨: 画像美学の向上は、画像の美的欠陥を認識し、それに対応する編集操作を実行することを目的とします。これは非常に難しく、モデルが創造性と美的知覚能力を備えている必要があります。近年の画像編集モデルの進展は制御性と柔軟性を大幅に向上させましたが、画像の美的品質を高める点では苦戦しています。主な課題は二つあります。第一は、美的知覚を用いた編集指示に従うことが難しいこと、第二は、内容は一貫しているが異なる美的品質を持つ“完全にペアリングされた”画像が不足していることです。本論文では、マルチモーダル美的知覚を備えた拡散ベースの生成モデルであるDIAEを提案します。まず、DIAEはMultimodal Aesthetic Perception (MAP) を取り入れ、あいまいな美的指示を次の方法で明示的な指針へと変換します:(i) 複数の美的属性にまたがる詳細で標準化された美的指示を用い、(ii) 同じ美的属性内の一貫性を保つテキストと画像のペアから派生したマルチモーダル制御信号を活用します。次に、完全にペアリングされた画像が不足している問題を緩和するため、意味は同一だが美的品質が異なる「不完全にペアリングされた」データセットIIAEDataを収集します。IIAEDataの訓練時における弱いマッチング特性をより活用するため、弱教師付き画像美学向上のための二重分岐監視フレームワークも導入します。実験結果は、DIAE がベースラインを上回り、画像美学スコアと画像内容の一貫性スコアの双方で優れた性能を発揮することを示しています。