視覚言語モデルはなぜ人間の感情を認識しにくいのか?
arXiv cs.CV / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚言語モデル(VLM)が人間の感情を認識するのに失敗しやすい理由を調査し、VLMが感情表情認識に特化した画像のみの分類器より優れない場合があることを指摘しています。
- 著者らは、主要な弱点として「感情データセットの長い尾(ロングテール)」と「VLMの事前学習におけるウェブ規模データ由来のヘッドクラス・バイアス」を挙げ、まれな感情をよくあるカテゴリに潰してしまうと述べています。
- データセット由来の偏りを抑えるために、一般的な概念に偏りにくい別のサンプリング戦略を提案しています。
- また、感情理解には時間的なダイナミクスが重要である一方、文脈長やメモリ上の制約により密なフレーム列を十分に表現できないことが、0.25〜0.5秒程度の短いマイクロ表情のような重要な手掛かりに特に不利に働くと示しています。
- さらに、途中のフレーム情報を自然言語の要約に変換してから、スパースなキーフレームとともにVLMへ与える「マルチステージ文脈強化」手法を提案し、感情の推移(トラジェクトリ)を保ちやすくするとしています。




