要旨: 顔のアクションユニット(AU)の検出は、表現段階と意思決定段階の両方で生じる、AU固有の不確実性が異質であることにより、依然として困難です。近年の手法は識別的な特徴学習を改善していますが、多くの場合AU表現を決定論的として扱うため、視覚ノイズ、被験者依存の外観変動、曖昧なAU間の関係によって引き起こされる不確実性を見落とし、これらが頑健性を大きく低下させ得ます。一方で、従来の点推定型分類器はしばしば信頼度(confidence)が適切に校正されておらず、特にAUデータセットに典型的な深刻なラベル不均衡の下では、過度に確信のある予測を生みがちです。そこで本研究では、表現段階と意思決定段階の両方で不確実性を明示的にモデル化する、不確実性に配慮したAU検出フレームワークであるUAU-Netを提案します。表現段階では、CV-AFE(条件付きVAE(CVAE)に基づくAU特徴抽出モジュール)を導入し、複数の時空間スケールにわたって特徴の平均と分散を同時に推定することで、確率的なAU表現を学習します。さらに、AUラベルに条件付けすることで、AU間依存に関連する不確実性をCV-AFEが捉えられるようになります。意思決定段階では、多ラベルAU検出のためのAB-ENN(非対称ベータ・エビデンシャル・ニューラルネットワーク)を設計し、予測の不確実性をベータ分布でパラメータ化することで、極めて不均衡な二値ラベルに合わせて設計された非対称の損失により過信(overconfidence)を抑制します。BP4DおよびDISFAに関する大規模な実験により、UAU-Netが強力なAU検出性能を達成することが示され、さらに分析から、表現学習とエビデンシャル予測の両方において不確実性をモデル化することが頑健性と信頼性を改善することが明らかになりました。
UAU-Net:不確実性を考慮した表現学習と証拠(エビデンシャル)分類による顔の表情アクションユニット検出
arXiv cs.CV / 2026/4/24
📰 ニュースModels & Research
要点
- 本論文は、顔のアクションユニット(AU)検出が、表現段階と意思決定段階の両方で生じるAU固有の不確実性により難しいと主張しており、多くの既存手法が決定論的な表現として不確実性を見落としている点を指摘しています。
- 提案するUAU-Netは、不確実性を2段階で明示的にモデル化します。表現段階ではCV-AFE(条件付きVAEに基づく特徴抽出モジュール)により、複数の時空間スケールで特徴の平均と分散を同時推定して確率的AU表現を学習し、さらにAUラベルで条件付けすることでAU間の依存に伴う不確実性を捉えます。
- 意思決定段階ではAB-ENNを設計し、非対称なベータ(Beta)によるエビデンシャルニューラルネットワークで予測の不確実性をベータ分布として表現し、重度に不均衡な二値ラベルに合わせた非対称損失によって過信(overconfidence)を抑えます。
- BP4DおよびDISFAでの実験により、UAU-Netが強いAU検出性能を達成し、さらに分析から、表現学習と証拠に基づく予測の両方で不確実性を扱うことが頑健性と信頼性を高めることが示されています。
- 全体として、本研究は点推定型分類器に代わる、不確実性を考慮しキャリブレーションされた多ラベルAU検出のアプローチを提示しています。


