視覚言語モデルはなぜ人間の感情を認識しにくいのか?

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、視覚言語モデル(VLM)が人間の感情を認識するのに失敗しやすい理由を調査し、VLMが感情表情認識に特化した画像のみの分類器より優れない場合があることを指摘しています。
  • 著者らは、主要な弱点として「感情データセットの長い尾(ロングテール)」と「VLMの事前学習におけるウェブ規模データ由来のヘッドクラス・バイアス」を挙げ、まれな感情をよくあるカテゴリに潰してしまうと述べています。
  • データセット由来の偏りを抑えるために、一般的な概念に偏りにくい別のサンプリング戦略を提案しています。
  • また、感情理解には時間的なダイナミクスが重要である一方、文脈長やメモリ上の制約により密なフレーム列を十分に表現できないことが、0.25〜0.5秒程度の短いマイクロ表情のような重要な手掛かりに特に不利に働くと示しています。
  • さらに、途中のフレーム情報を自然言語の要約に変換してから、スパースなキーフレームとともにVLMへ与える「マルチステージ文脈強化」手法を提案し、感情の推移(トラジェクトリ)を保ちやすくするとしています。

Abstract

感情を理解することは、知的システムが人間と相互作用できるようにするための基本的能力である。視覚言語モデル(VLM)は、ここ数年で多くの視覚タスクにおいて目覚ましい進歩を遂げており、感情を理解するための有望な解決策を提供しうる。しかし、最先端の洗練された現代的VLMであっても、人間の感情を認識できなかったり、さらには専門の視覚のみ分類器を上回ることさえできないのは驚くべきことである。本論文では「なぜVLMは人間の感情を認識するのに苦戦するのか?」という問いを設定し、顔表情認識(DFER)の本質的に連続的かつ動的なタスクが、2つの重要なVLMの脆弱性を露呈させることを観察する。第一に、感情データセットは自然にロングテールであり、VLMの事前学習に用いられるウェブ規模のデータは、このヘッドクラスのバイアスをさらに強めてしまう。その結果、まれで十分に表れていない感情が、一般的なカテゴリへと体系的に崩壊する。私たちは、一般的な概念を優先してしまうことを防ぐための代替的なサンプリング戦略を提案する。第二に、感情を理解するには時間情報が重要である。しかしVLMは、コンテキストサイズと、メモリに収めることのできるトークン数によって制限されるため、密なフレーム列にわたる時間情報を表現できない。これは感情認識にとって明確な課題である。私たちは、VLMで用いられる疎な時間サンプリング戦略が、微表情(0.25-0.5秒)のはかない性質と本質的に噛み合っていないことを示す。微表情は、多くの場合で最も重要な情動の手がかりである。診断用のプローブとして、「in-between(合間の)」フレームの情報を活用し、まずそれらを自然言語の要約へと変換することで、段階的なコンテキスト強化戦略を提案する。この強化されたテキストコンテキストは、疎なキーフレームとともにVLMへの入力として与えられ、過剰な視覚データによる注意の希薄化を防ぎつつ、感情の軌跡を保持する。