概要: 顔のマイクロ表情(ME)は、人が感情を感じつつも顔の表現を抑制または抑圧しようとする際に自発的に発生する無意識の顔の動きであり、通常は重要な環境下で観察されます。近年、MEの認識、検出、生成の分野で大きな進歩がありました。マルチモーダル大規模言語モデル(MLLM)および大規模視覚言語モデル(LVLM)の出現は、これらの強力なマルチモーダル推論能力を通じてME解析を強化する有望な新たな道を提供します。MEグランドチャレンジ(MEGC)2026では以下の2つのタスクを導入し、これらの研究方向の進化を反映しています。(1) MEビデオ質問応答(ME-VQA):比較的短い動画シーケンス上での視覚的質問応答を通じてME理解を探求し、MLLMやLVLMを活用して多様なME関連の質問に対応します。(2) ME長時間ビデオ質問応答(ME-LVQA):VQAを長時間動画シーケンスに拡張して現実的な設定で実施し、時間的推論や微細なマイクロ表情の検出を長期間にわたって処理できるモデルを必要とします。すべての参加アルゴリズムは、公開リーダーボードに結果を提出することが求められます。詳細は https://megc2026.github.io でご覧いただけます。
MEGC2026: 視覚的質問応答におけるマイクロ表情グランドチャレンジ
arXiv cs.CV / 2026/3/11
Signals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MEGC2026チャレンジは、重要な状況で抑制された感情を反映する自発的で微細な顔の動きである顔のマイクロ表情(ME)に焦点を当てています。
- 2つのタスクを導入しています:大規模なマルチモーダル言語モデルおよび視覚言語モデルを使用した短い動画に対するMEビデオ質問応答(ME-VQA)、および長時間動画にわたる時間的推論を必要とするME長時間ビデオ質問応答(ME-LVQA)。
- このチャレンジは、マルチモーダルLLMおよびLVLMの高度な推論能力を活用して、認識や検出を含むME解析の向上を目指しています。
- 参加者は結果を公開リーダーボードに提出する必要があり、この新興研究分野のベンチマークと進捗の追跡を促進します。
- 詳細およびチャレンジの情報は公式MEGC2026ウェブサイトで入手可能です。