顔の表情認識のための、適応的マージン不一致トレーニングを備えた感情拡散分類器

arXiv cs.CV / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、弁別的分類器に依存する顔の表情認識（FER）モデルが抱える弱点に取り組む。これらのモデルは、近道（ショートカット）に過適合し、分布シフト下では性能が低下しうる。

Abstract

顔の表情認識（FER）は、人と機械のインタラクションに不可欠です。なぜなら、機械が顔の情動的な振る舞いから人間の感情や内的状態を解釈できるようになるからです。深層学習はFERの性能を大きく向上させてきましたが、既存の深層学習ベースの多くのFER手法は、迅速な予測のために判別器（discriminative classifier）に強く依存しています。これらのモデルは近道（ショートカット）を学習しがちで、わずかな分布の変化（distribution shift）に対しても脆弱です。この問題に対処するために、条件付き生成拡散モデルを採用し、FERのためのEmotion Diffusion Classifier（EmoDC）を導入します。これにより、敵対的ロバスト性が向上することを示します。しかし、標準的な戦略でEmoDCを再学習しても、誤ったカテゴリ記述に対する罰則が十分に与えられず、認識性能が最適になりません。EmoDCを改善するために、マージン（margin）に基づく不一致（discrepancy）学習を提案します。これは、正しいカテゴリ記述を条件としたときに正確な予測を促し、不一致なものを条件としたときにはその予測を罰するものです。この方法は、正しいカテゴリと誤ったカテゴリに対するノイズ予測誤差の間に最小マージンを強制することで、モデルの判別能力を高めます。とはいえ、固定マージンを用いると、画像ごとにノイズ予測の難しさが異なることを考慮できず、有効性が制限されます。この制約を克服するために、サンプルごとにマージンを動的に調整するAdaptive Margin Discrepancy Training（AMDiT）を提案します。大規模な実験の結果、AMDiTは、100ステップ評価において、RAF-DBのbasic subset、RAF-DBのcompound subset、SFEW-2.0、AffectNetのそれぞれで、標準的なdenoising diffusion学習を行ったBaseモデルに比べてEmoDCの精度を大幅に改善することが示されました。さらに、EmoDCは、ノイズおよびブラーに対するロバスト性の観点で、最先端の判別器（discriminative classifier）を上回ります。