Vision Transformerを用いたECG信号からのストレス分類

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、生の信号を2次元STFTスペクトログラムへ変換し、パッチ化した入力をトランスフォーマーエンコーダへ投入することで、ECGから多クラス（多レベル）のストレス分類を行うためのビジョントランスフォーマー手法を提案する。
WESADおよびRMLデータセット上で、leave-one-subject-out交差検証（LOSOCV）を用いることで被験者間のばらつきという課題に対処し、1D CNNおよびResNet-18のベースラインと比較する。
実験結果は、ビジョントランスフォーマーがCNN系モデルや先行の最先端手法を上回り、被験者間の違いに対する頑健性がより強いことを示す。
本手法はエンドツーエンドであり、手作り特徴量を用いずに、スペクトログラムのパッチデータから表現を直接学習する。
報告されている性能として、3クラス分類でRMLが71.01%、WESADが76.7%の精度が示され、またWESADにおける2値分類では88.3%の精度が得られている。

要旨: ビジョントランスフォーマーは、多くのコンピュータビジョン分野のアプリケーションにおいて目覚ましい成功を収めてきました。しかし、心電図（ECG）などの生理信号を用いたストレス評価には、まだ十分に活用されていません。多段階ストレス評価においてビジョントランスフォーマーの最大の恩恵を得るために、本論文では、短時間フーリエ変換（STFT）を用いて生のECGデータを2Dスペクトログラムへ変換します。これらのスペクトログラムは、トランスフォーマーエンコーダに入力するためにパッチに分割されます。また、1D CNNおよびResNet-18（CNNモデル）についても実験を行います。WESADおよびRyerson Multimedia Lab（RML）データセットに対して、leave-one-subject-out交差検証（LOSOCV）実験を実施します。LOSOCVベースの実験における最大の課題の1つは、被験者間のばらつきの問題に取り組むことです。本研究では、被験者間のばらつきの課題を扱い、2Dスペクトログラムとトランスフォーマーの注意（attention）メカニズムを用いて成功を示します。実験結果から、ビジョントランスフォーマーはCNNベースのモデルよりも被験者間のばらつきの影響を大幅にうまく扱えることが示され、また、過去の最先端手法すべてをかなりの差で上回ります。さらに、提案手法はエンドツーエンドであり、手作りの特徴量を必要とせず、頑健な表現を学習できます。提案手法は、3クラス分類においてRMLデータセットで71.01%、WESADデータセットで76.7%の精度を達成し、またWESADにおける2値分類では88.3%を達成しました。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

Vision Transformerを用いたECG信号からのストレス分類

要点

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer