MFCC特徴量とLSTMベースの深層学習モデルによる音声感情認識

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、メル周波数ケプストラム係数(MFCC)で特徴抽出し、それをLSTMニューラルネットワークに入力する音声感情認識システムを提案しており、発話の時間依存パターンを捉えることを狙っています。
  • Toronto Emotional Speech Set(TESS)を用い、音声信号を前処理したうえでMFCCへ変換し、感情の違いに関連する重要な時間的特徴を把握します。
  • 実験結果から、提案手法(MFCC-LSTM)が連続音声データの長期的特徴を学習し、複数の感情カテゴリに対して高い分類精度を実現することが示されています。
  • 伝統的なベースラインとして、RBFカーネルのSVMは98%精度であったのに対し、提案するLSTMモデルは99%精度を達成して性能向上を確認しています。
  • 仮想アシスタントやメンタルヘルスのモニタリング/サーベイランスのように、発話から感情的手がかりを読み取る実利用への可能性も示唆しています。

Abstract

語音感情認識(SER)とは、音声に基づいて人間の感情状態を検出するために機械を用いることです。これは、自然なヒューマンコンピュータインタラクションにおいて重要性を増しており、注目されています。音声は非常に価値のある情報源です。なぜなら、感情は発話のパターンを変化させるからです。すなわち、ピッチ、エネルギー、さらにはタイミングです。それにもかかわらず、SERは容易な課題ではありません。話者は一定ではなく、録音時の状況も変わり、さらに特定の感情間での音の類似性も異なるためです。本研究では、特徴抽出手法としてメル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficient)と長短期記憶(LSTM)ニューラルネットワークに依存する、音声感情認識システムを著者が提示しています。トロント感情音声セット(Toronto Emotional Speech Set: TESS)の音声信号を事前処理し、時間の観点で重要な側面を理解するためにMFCC特徴へと変換しました。その後、得られた特徴をLSTMモデルに導入しました。LSTMモデルは、連続した音声データの長期的な特徴を学習できます。訓練済みモデルは、データセット内に出現する複数の感情クラスに対して評価されました。実験結果から分かるように、提案したMFCC-LSTMアプローチは音声における感情のパターンを捉えることに成功し、選択されたすべての感情分類において非常に現実的な分類結果を提供します。本研究は、特徴としてメル周波数ケプストラム係数(MFCC)を用い、深層学習のLSTM分類器を用いた音声感情認識システムを提示します。RBFカーネルを用いるサポートベクターマシン(SVM)は古典的なベースラインとして機能し、98%の精度を達成しました。これに対し、提案するLSTMモデルは99%の精度を達成し、その妥当性が検証されました。全体として、LSTMベースのアーキテクチャが音声感情認識という課題に対処するために使用できることを確認できます。提案システムの実際の応用例としては、バーチャルアシスタントやメンタルヘルスの監視などが考えられます。

MFCC特徴量とLSTMベースの深層学習モデルによる音声感情認識 | AI Navigate