ドラヴィダ諸語における医療領域でのASR性能向上

arXiv cs.CL / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文は、テルグ語やカンナダ語のような低リソースのドラヴィダ諸語における医療領域ASRの課題を扱い、注釈データ不足と形態的複雑さが性能を下げる点を指摘しています。
実音声と合成音声（TTS）を、静的な知覚・音響類似性指標と動的なモデルエントロピーを組み合わせた「ハイブリッドな信頼度」信号で統合する、信頼度認識（confidence-aware）型の学習フレームワークを提案しています。
直接的な微調整ではなく、固定重みおよび学習可能重みの信頼度集約を用いて、異種データソースから得たサンプルに対する重み付けを学習中に行います。
実録音とTTS生成音声の両方を含む医療データセットで評価した結果、テルグ語のWERが24.3%から15.8%に、カンナダ語のWERが31.7%から25.4%にそれぞれ大きく改善し、誤認識を大幅に減らせることを示しています。
後処理のデコード補正には5-gramのKenLM言語モデルを使用し、提案手法が標準的な微調整ベースラインより優れることを、形態的に複雑なこの言語・領域での認識精度向上として確認しています。

要旨: テルグ語やカンナダ語のような低資源のドラヴィダ諸語に対する自動音声認識（ASR）は、注釈付きデータが限られていることや形態的な複雑さのため、専門的な医療領域では大きな課題に直面している。本研究では、静的な知覚的および音響的類似性指標と、動的なモデルエントロピーを組み合わせたハイブリッドな信頼度メカニズムにより、実音声データと合成音声データを統合する信頼度を考慮した新しい学習フレームワークを提案する。直接の微調整アプローチとは異なり、本手法では学習中のサンプル重み付けを導くために、固定重みと学習可能重みの両方による信頼度集約戦略を用いる。これにより、異種のデータソースを効果的に活用できる。フレームワークは、実収録とTTS生成の合成音声の両方を含むテルグ語およびカンナダ語の医療データセットで評価される。後段のデコーディング補正には、5-gramのKenLM言語モデルを適用する。結果として、学習可能重みを伴うハイブリッドな信頼度を考慮したアプローチは、認識誤りを大幅に低減することが示される。テルグ語の単語誤り率（WER）は24.3%から15.8%へ低下（絶対的改善8.5%）し、カンナダ語のWERは31.7%から25.4%へ低下（絶対的改善6.3%）する。いずれも標準的な微調整のベースラインを大きく上回る。これらの知見は、適応的な信頼度を考慮した学習と統計的言語モデリングを組み合わせることで、形態的に複雑なドラヴィダ諸語における領域特化型ASRの性能が優れることを確認している。