概要: 微小表情の認識は、ある瞬間における個人の実際の感情を捉えることができます。深層学習ベースの手法、特にTransformerベースの手法は目覚ましい成果を上げている一方で、これらの手法は、多頭自己注意(multi-head self-attention)におけるトークン数が多いため計算の複雑性が高くなります。さらに、既存の微小表情データセットは規模が小さいため、Transformerベースのモデルが効果的な微小表情表現を学習することが困難です。そこで本研究では、高い認識性能と低い計算複雑性の両立を可能にする、新しい Efficient Patch tokenization, Integration and Representation フレームワーク(EPIR)を提案します。具体的には、まず、顔領域における隣接する画素間の空間的関係を学習するための二重ノルム・シフト付きトークン化(DNSPT)モジュールを提案します。これは、洗練された空間変換と二重ノルム射影によって実装されます。次に、情報損失なしにトークン数を削減するため、多段のTransformerブロック間で部分トークンを統合するトークン統合モジュールを提案します。さらに、識別的なトークン抽出器を設計します。これはまず、自己トークンに対する注意計算の不必要な注目を減らすためにTransformerブロック内の注意を改善し、動的トークン選択モジュール(DTSM)を用いて重要なトークンを選択することで、より識別力の高い微小表情表現を捉えます。CASME II、SAMM、SMIC、CAS(ME)3の4つの代表的な公開データセットで大規模な実験を行いました。実験結果から、本手法は、CAS(ME)3データセットにおいてUF1指標で9.6%の改善、SMICデータセットにおいてUAR指標で4.58%の改善といったように、既存の最先端手法に対して顕著な性能向上を達成することが示されました。
EPIR:微表情認識のための効率的なパッチトークン化、統合、および表現フレームワーク
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己注意におけるトークン数の増大が原因で発生するTransformerベースモデルの高い計算コストを対象とした、微表情認識のための効率的なフレームワークEPIRを提案する。
- EPIRは、洗練された空間変換とデュアルノルム射影(dual norm projection)により、顔領域における空間関係をより適切に学習するためのデュアルノルム・シフト付きトークン化(DNSPT)モジュールを用いる。
- トークン統合モジュールにより、カスケードされたTransformerブロック間で部分トークンを統合してトークンのオーバーヘッドを削減し、情報損失を回避することを目指す。
- 判別的トークン抽出器を提案し、Transformerの注意挙動を改善するとともに、動的トークン選択モジュール(DTSM)を用いて重要でより情報量の多いトークンに焦点を当てる。
- 4つの公開微表情データセット(CASME II、SAMM、SMIC、CAS(ME)3)での実験により、最先端の性能向上が示される。例えば、CAS(ME)3でUF1が9.6%向上し、SMICでUARが4.58%向上する。


