4Dマイクロ表情認識のためのデュアルビュー光フロー—マルチストリーム融合注意アプローチ

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、4Dマイクロ表情認識のためのデュアルビュー光フローパイプラインを提案し、高次元のメッシュ運動を2つの同期視点から得られる運動に焦点を当てたフロー表現へと変換する。
onset–apex と apex–offset の2つの区間にシーケンスを分割することで、位相に応じた処理を導入し、それぞれの位相に対して水平・垂直・大きさ（magnitude）の光フローチャネルを抽出する。
本手法は、モダリティ固有の特徴を適応的に重み付けする融合注意（fusion-attention）モジュールと、（大きさに関する）表現を強化する squeeze-and-excitation（SE）ブロックを備えた Triple-Stream MicroAttNet を用いる。
学習ではクラス不均衡に対処するため focal loss を適用し、Adam と早期終了を用いる。評価はマルチラベルの 4DME データセット（5つの感情カテゴリ）で行い、macro-UF1 は 0.536 であり、公式ワークショップのベースラインを50%以上上回って優勝した。
アブレーション結果は、融合注意とSEの各コンポーネントがそれぞれ最大で約3.6 UF1ポイントの改善をもたらし、各アーキテクチャ要素の寄与が裏付けられる。

要旨: 微小表情認識は感情コンピューティングにおいて重要ですが、関与する顔の動作が極めて短時間で低強度であること、また4Dメッシュデータが高次元であることにより依然として困難です。これらの課題に対処するため、同期した2つの視点から各微小表情系列を撮影し、動きを表すための光フローを計算することで、メッシュ処理を簡素化するデュアルビュー光フロー手法を提案します。まず、空間的一貫性を確保するための視点分離と、系列ごとの顔クロッピングからパイプラインを開始し、その後、両方の視点におけるピーク運動強度に基づいて頂点フレーム（apex-frame）を自動検出します。各系列をオンセット-頂点（onset-apex）フェーズと頂点-オフセット（apex-offset）フェーズに分解し、それぞれのフェーズに対して水平、垂直、そして大きさ（magnitude）の光フローチャネルを抽出します。これらを我々のTriple-Stream MicroAttNetに入力し、融合アテンションモジュールを用いてモダリティ固有の特徴に対する重みを適応的に調整し、さらにスクイーズ・アンド・エキサイテーション（SE）ブロックで大きさ表現を強化します。学習ではクラス不均衡を緩和するためにfocal lossを用い、早期終了付きのAdamオプティマイザを使用します。24人の被験者と5つの感情カテゴリからなるマルチラベル4DMEデータセットで評価し、4DMR IJCAI Workshop Challenge 2025において、本手法はマクロUF1スコア0.536を達成し、公式ベースラインを50%以上上回って1位を獲得します。アブレーション研究により、融合アテンション成分とSE成分のいずれもUF1の獲得に最大3.6ポイントずつ寄与することが確認されます。これらの結果は、デュアルビューの位相を意識した光フローとマルチストリーム融合を組み合わせることで、4D微小表情認識に対する堅牢で解釈可能な解を得られることを示しています。