MFCC特徴量とLSTMベースの深層学習モデルによる音声感情認識
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、メル周波数ケプストラム係数(MFCC)で特徴抽出し、それをLSTMニューラルネットワークに入力する音声感情認識システムを提案しており、発話の時間依存パターンを捉えることを狙っています。
- Toronto Emotional Speech Set(TESS)を用い、音声信号を前処理したうえでMFCCへ変換し、感情の違いに関連する重要な時間的特徴を把握します。
- 実験結果から、提案手法(MFCC-LSTM)が連続音声データの長期的特徴を学習し、複数の感情カテゴリに対して高い分類精度を実現することが示されています。
- 伝統的なベースラインとして、RBFカーネルのSVMは98%精度であったのに対し、提案するLSTMモデルは99%精度を達成して性能向上を確認しています。
- 仮想アシスタントやメンタルヘルスのモニタリング/サーベイランスのように、発話から感情的手がかりを読み取る実利用への可能性も示唆しています。



