小児の言語聴覚療法(Pediatric SLP)にはマルチモーダルLLMだけでは不十分

arXiv cs.CL / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、小児の発話音障害(SSD)の分類をより効果的に行う方法を検討し、実際の課題である言語聴覚士の不足と過大な担当件数に取り組みます。
  • SLPHelmUltraSuitePlusベンチマークを用い、二値分類から障害のタイプ、さらに症状の分類へと段階的に進む階層型(カスケード型)の分類パイプラインを提案します。
  • Speech Representation Models(SRM)を微調整し、特定のデータ拡張を行うことで、先行研究で見られたバイアスを抑え、ベンチマークの臨床タスクすべてで性能を向上させます。
  • 同じデータ拡張アプローチを自動音声認識(ASR)にも適用し、診断・分類の枠を超えた評価も行います。
  • 評価した全タスクにおいてSRMベースの手法が、現行のLLMベースの最先端を大きく上回り、さらに追研究を促すためにモデルとコードを公開しています。

要旨: スピーチ音障害(SSD)はおよそ5%の子どもに影響しますが、言語聴覚士(SLP)は深刻な人員不足と、手に負えないほどの業務量(ケースロード)に直面しています。本研究では、きめ細かなマルチタスク SLPHelmUltraSuitePlus ベンチマーク上で、SSD分類に対する階層的アプローチを検証します。われわれは、二値分類からタイプ分類、そして症状分類へと段階的に進むカスケード方式を提案します。Speech Representation Models(SRM)を微調整し、標的を絞ったデータ拡張を用いることで、先行研究で見つかったバイアスを緩和し、ベンチマークのすべての臨床タスクで改善します。また、データ拡張アプローチにより、自動音声認識(ASR)にも取り組みます。結果として、SRM は評価したすべてのタスクにおいて、LLM ベースの最先端手法を一貫して大きく上回ることを示します。さらに、今後の研究の促進のために、モデルとコードを公開します。