PPGに基づく感情(アフェクト)認識における長距離ディープモデル:CNN・Transformer・Mambaアーキテクチャの測定に基づく比較

arXiv cs.LG / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、手首型フォトプレチスモグラフィ(PPG)信号から感情状態(覚醒度・快/不快・リラックス)を分類するために、CNN、CNN-LSTM、Transformer、Mambaの4つの深層学習アーキテクチャを評価します。
  • 同一の前処理、分割、学習パイプラインに加え、被験者非依存の5-fold交差検証で直接比較し、小さくノイジーになりやすいデータセットで長距離系列モデルが有利かを検証します。
  • 結果として、TransformerとMambaはCNNベースラインと同等の性能に到達する一方で、すべてのタスクで一貫してCNNを上回るわけではありません。
  • 総合的にはCNNが最も有効で、高い精度を小さなモデルサイズで実現し、またTransformerは覚醒度とリラックスにおいてF1スコアのバランスが良いと示されます。
  • 本研究はPPGベースの感情認識に対するTransformerおよびMambaの初めての評価として位置付けられ、ウェアラブル感情モニタリングでのモデル選定に向けた実務的な指針を提供します。

Abstract

フォトプレチスモグラフィ(PPG)は、低コストであり、消費者向けデバイスへの統合が容易であることから、ウェアラブルな感情(affective)コンピューティングにますます用いられている。近年の深層学習の進歩により、Transformerのような長距離シーケンスモデルや、Mambaのような状態空間モデルが登場し、自然言語および一般的な時系列タスクにおいて強い性能を示している。しかし、データセットが通常小規模でノイズを含むことを踏まえると、これらのアーキテクチャが、PPGに基づく感情認識において、広く用いられている畳み込みニューラルネットワーク(CNN)や長短期記憶(LSTM)よりも明確な実利的利点を提供するのかどうかは、依然として不明である。本研究では、手首ベースのPPG信号から覚醒(arousal)、快/不快(valence)、安静/リラックス(relaxation)の状態を分類するために、4つの深層学習アーキテクチャ(CNN、CNN-LSTMハイブリッド、Transformer、Mamba)を、計測に基づく比較として提示する。すべてのモデルは、同一の前処理、セグメンテーション、学習パイプラインを用いて、被験者非依存の5-fold交差検証プロトコルの下で評価する。我々の結果は、TransformerモデルとMambaモデルがCNNベースラインと同等の性能を達成する一方で、すべてのタスクにおいて一貫してそれを上回るわけではないことを示している。CNNは全体として最も効果的であり、最小のモデルサイズで最高の精度を提供するが、Transformerは覚醒(Arousal)とリラックス(Relaxation)におけるF1スコアのバランスがより良い。 本研究は、PPGに基づく感情認識に対するTransformerおよびMambaモデルの初めての評価を提供し、ウェアラブルな感情モニタリングシステムにおけるモデル選定に関する実践的な指針を提供する。