プライマリケアの診療現場(ポイント・オブ・ケア)におけるうつ病検出:日常的な診療で受動的に収集された音声記録からの言語的シグナルの自動解析

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、日常的な一次診療の中で受動的に収集された音声記録の診療場面を用いて、自動的なうつ病検出を試験することで、一次診療におけるうつ病の見逃し(過小診断)に取り組む。
  • Establishing Focus study(PHQ-9によってラベル付け)から1,108件の診療場面を用い、教師ありモデル(Sentence-BERT+LR、LIWC+LR、ModernBERT)と、ゼロショットのGPT-OSSベースラインを評価した。
  • GPT-OSSが全体として最良の性能を示し、AUPRC=0.510、AUROC=0.774を達成した。一方でLIWC+LRは教師ありアプローチの中で競争力が高く、AUPRC=0.500、AUROC=0.742であった。
  • 本論文では、二者間の書き起こし(患者+医療者)を組み合わせることで、単一話者設定よりも性能が向上することが示されており、医療者による言語的ミラーリングが追加の予測情報をもたらしている可能性が示唆される。
  • 最初の患者トークン128個といった初期対話からでも有意な性能が得られることが分かり、既存のスクリーニングに低負担で補完する形で、その場での臨床的意思決定支援に活用できる可能性がある。

要旨: うつ病はプライマリ・ケアで過小診断されている一方で、適時の同定は依然として重要である。デジタル・スクリビング技術の普及に伴い増えてきている記録済みの臨床面談は、自然な対話からうつ病を検出する機会を提供する。私たちは、Establishing Focus研究において、PHQ-9によりうつ病を定義した(n=253が抑うつ、n=855が非抑うつ)1,108件の音声記録されたプライマリ・ケア面談から、自動的なうつ病検出を調査した。3つの教師ありアプローチ、Sentence-BERT + ロジスティック回帰(LR)、LIWC+LR、ModernBERTを、ゼロショットGPT-OSSと比較した。GPT-OSSは最も強い性能を達成した(AUPRC=0.510、AUROC=0.774)。教師ありモデルの中ではLIWC+LRが競争力のある結果であった(AUPRC=0.500、AUROC=0.742)。2者間の対話転記を組み合わせた構成は、単一話者の構成よりも優れていた。うつ病の面談では、医療従事者が患者を言語的にミラーリングすることが観察され、これは単独の話者だけでは捉えられない相加的なシグナルである。意味のある検出は最初の128件の患者トークンからでも可能である(AUPRC=0.356、AUROC=0.675)。これは、その場での臨床的意思決定支援を支持する。これらの結果は、受動的に収集された臨床音声が、既存のスクリーニング手順に対する負担の少ない補完策になり得ることを示唆している。