AICA-Bench:感情的な画像コンテンツ分析におけるVLMの能力を総合的に検証する
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、3つのタスク(感情理解、感情推論、感情に導かれたコンテンツ生成)にわたって、視覚言語モデル(VLM)を「感情的な画像コンテンツ分析」を総合的に評価するためのAICA-Benchを導入する。
- 23のVLMに対する実験の結果、重要な弱点が2つ確認される:強度のキャリブレーションが不十分であること、そして自由形式の感情的記述における性能が浅いこと。
- これらの課題を緩和するために、著者らは学習不要の手法として、視覚的な足場(scaffolding)と階層的推論を用いるGrounded Affective Tree(GAT)Promptingを提案する。
- 結果として、GATは感情強度の誤りを低減し、生成または記述されたコンテンツの深さを向上させ、今後の感情マルチモーダル研究のためのベースラインを確立する。




