AICA-Bench:感情的な画像コンテンツ分析におけるVLMの能力を総合的に検証する

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、3つのタスク(感情理解、感情推論、感情に導かれたコンテンツ生成)にわたって、視覚言語モデル(VLM)を「感情的な画像コンテンツ分析」を総合的に評価するためのAICA-Benchを導入する。
  • 23のVLMに対する実験の結果、重要な弱点が2つ確認される:強度のキャリブレーションが不十分であること、そして自由形式の感情的記述における性能が浅いこと。
  • これらの課題を緩和するために、著者らは学習不要の手法として、視覚的な足場(scaffolding)と階層的推論を用いるGrounded Affective Tree(GAT)Promptingを提案する。
  • 結果として、GATは感情強度の誤りを低減し、生成または記述されたコンテンツの深さを向上させ、今後の感情マルチモーダル研究のためのベースラインを確立する。

Abstract

ビジョン言語モデル(VLM)は知覚において強力な能力を示してきましたが、知覚・推論・生成を統一された枠組みに統合する包括的な情動画像コンテンツ解析(Affective Image Content Analysis: AICA)は、十分に探究されていません。このギャップに対処するため、3つの中核タスクからなる包括的なベンチマークであるAICA-Benchを提案します。具体的には、感情理解(Emotion Understanding: EU)、感情推論(Emotion Reasoning: ER)、感情に導かれたコンテンツ生成(Emotion-Guided Content Generation: EGCG)の3タスクです。23のVLMを評価し、2つの主要な限界を特定します。すなわち、強度の校正が弱いこと、そして自由形式の記述が浅いことです。これらの課題に対処するため、視覚的な足場(scaffolding)と階層的推論を組み合わせた、学習不要の枠組みであるGrounded Affective Tree(GAT)Promptingを提案します。実験の結果、GATは強度誤差を低減し、記述の深さを向上させることが示され、情動のマルチモーダル理解および生成に関する今後の研究に向けた強力なベースラインを提供します。