自動音声認識品質が自然発話からのアルツハイマー病検出に与える影響:語彙モデリングと統計的検証を用いた再現性のあるベンチマーク研究

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ADReSSo 2021データセットにおけるWhisper ASRの転写から抽出した語彙特徴を用いてアルツハイマー病検出を分析し、ASR品質が下流の言語モデルにどのように影響するかを理解する。
  • Whisper-smallの転写がWhisper-baseの転写よりも優れており、Linear SVMを用いてバランス精度が0.7850超を達成することを見出した。これは転写品質が分類器の複雑さよりも重要であることを示している。
  • 結果は言語的差異を示す。認知機能が正常な話者は意味的により正確な物体・場面を説明する言語を用いる一方、アルツハイマー病の語りは曖昧さ、談話マーカー、ためらいを特徴とする。
  • 著者らは再現性のあるベンチマークパイプラインを提供し、ASRの選択が臨床音声ベースのAIシステムにおける重要なモデリング決定であると主張している。

要旨:
自然発話からのアルツハイマー病の早期検出は、有望な非侵襲的スクリーニング手法として浮上している。
しかし、下流の臨床言語モデリングにおける自動音声認識(ASR)の品質の影響は、十分に理解されていない。
本研究では、ADReSSo 2021 診断データセット上の Whisper ASR 転写から得られる語彙特徴を用いたアルツハイマー病検出を調査します。
TF-IDF テキスト表現を用い、繰り返しの 5x5 層化交差検証の下で、ロジスティック回帰と線形サポートベクターマシンを含む解釈可能な機械学習モデルを評価します。
私たちの結果は、転写品質が分類性能に統計的に有意な影響を与えることを示しています。
Whisper-small 転写を用いて訓練したモデルは、Whisper-base 転写を用いたモデルを一貫して上回り、Linear SVM でバランス精度が 0.7850 を超えました。
対応のある統計検定は、観察された改善が有意であることを確認しています。
重要なのは、分類器の複雑さは ASR 転写品質よりも性能変動に寄与する程度が小さい、という点です。
特徴分析から、認知機能が正常な話者は、物体・場面を説明する語彙においてより意味的に正確な言語を生成するのに対し、アルツハイマー病の発話は曖昧さ、談話マーカー、および増加したためらいのパターンによって特徴づけられることが明らかになりました。
これらの知見は、高品質の ASR が、明示的な音響モデリングを用いずに、単純で解釈可能な語彙モデルを用いたアルツハイマー病検出の競争力のある性能を実現できることを示唆しています。
本研究は再現可能なベンチマークパイプラインを提供し、ASR の選択を臨床の音声ベースの人工知能システムにおける重要なモデリング判断として強調しています。