要旨: ビジョントランスフォーマーは、多くのコンピュータビジョン分野のアプリケーションにおいて目覚ましい成功を収めてきました。しかし、心電図(ECG)などの生理信号を用いたストレス評価には、まだ十分に活用されていません。多段階ストレス評価においてビジョントランスフォーマーの最大の恩恵を得るために、本論文では、短時間フーリエ変換(STFT)を用いて生のECGデータを2Dスペクトログラムへ変換します。これらのスペクトログラムは、トランスフォーマーエンコーダに入力するためにパッチに分割されます。また、1D CNNおよびResNet-18(CNNモデル)についても実験を行います。WESADおよびRyerson Multimedia Lab(RML)データセットに対して、leave-one-subject-out交差検証(LOSOCV)実験を実施します。LOSOCVベースの実験における最大の課題の1つは、被験者間のばらつきの問題に取り組むことです。本研究では、被験者間のばらつきの課題を扱い、2Dスペクトログラムとトランスフォーマーの注意(attention)メカニズムを用いて成功を示します。実験結果から、ビジョントランスフォーマーはCNNベースのモデルよりも被験者間のばらつきの影響を大幅にうまく扱えることが示され、また、過去の最先端手法すべてをかなりの差で上回ります。さらに、提案手法はエンドツーエンドであり、手作りの特徴量を必要とせず、頑健な表現を学習できます。提案手法は、3クラス分類においてRMLデータセットで71.01%、WESADデータセットで76.7%の精度を達成し、またWESADにおける2値分類では88.3%を達成しました。
Vision Transformerを用いたECG信号からのストレス分類
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、生の信号を2次元STFTスペクトログラムへ変換し、パッチ化した入力をトランスフォーマーエンコーダへ投入することで、ECGから多クラス(多レベル)のストレス分類を行うためのビジョントランスフォーマー手法を提案する。
- WESADおよびRMLデータセット上で、leave-one-subject-out交差検証(LOSOCV)を用いることで被験者間のばらつきという課題に対処し、1D CNNおよびResNet-18のベースラインと比較する。
- 実験結果は、ビジョントランスフォーマーがCNN系モデルや先行の最先端手法を上回り、被験者間の違いに対する頑健性がより強いことを示す。
- 本手法はエンドツーエンドであり、手作り特徴量を用いずに、スペクトログラムのパッチデータから表現を直接学習する。
- 報告されている性能として、3クラス分類でRMLが71.01%、WESADが76.7%の精度が示され、またWESADにおける2値分類では88.3%の精度が得られている。



