要旨: 自動化された音素レベルの発音評価は、スケーラブルな音声療法と言語学習にとって不可欠である一方、アラビア語に対する検証済みツールは依然として乏しい。私たちは、臨床スケールで音素レベルのアラビア語発音をスコアリングするモジュール型システム Harf-Speech を提案する。Harf-Speech は、MSA ファネタイザ、微調整した音声から音素へのモデル、Levenshtein アライメント、最長共通部分列と編集距離の指標を用いたブレンドスコアラを組み合わせる。私たちは、アラビア語の音素データに対して3つのASRアーキテクチャを微調整し、ゼロショットのマルチモーダルモデルとベンチマークする。最良のモデルである OmniASR-CTC-1B-v2 は、8.92\% の音素誤り率を達成する。3名の認定言語聴覚士(speech-language pathologist)が、臨床的妥当性のために40の発話を独立にスコアリングした。Harf-Speech は、平均の専門家スコアとの間で Pearson 相関 0.791、ICC(2,1) 0.659 を示し、既存のエンドツーエンド評価フレームワークを上回った。これらの結果は、Harf-Speech が、解釈可能で、臨床的に整合したスコアを生み、評価者間の専門家合意と同等の水準にあることを示している。
Harf-Speech:アラビア語の音素レベル音声評価のための臨床的に整合したフレームワーク
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- Harf-Speechは、検証済みのアラビア語ツールが限られている状況で、スケーラブルな音声療法や言語学習を支援することを目的とした、アラビア語の音素レベル発音評価のためのモジュール型フレームワークとして導入される。
- 本システムは、MSA(標準語)用の音声素性器(phonetizer)、微調整済みの音声から音素へのモデル、レーベンシュタイン型のアラインメント、および最長共通部分列と編集距離に基づくブレンド型のスコアリング手法を組み合わせる。
- 3つのアラビア語ASRアーキテクチャを音素データで微調整し、ゼロショットのマルチモーダルモデルとベンチマークする。OmniASR-CTC-1B-v2は音素誤り率8.92%を達成する。
- 臨床的検証では、認定を受けた言語聴覚士3名が40の発話(utterances)を採点し、Harf-Speechは、専門家評価と相関する(Pearson 0.791、ICC(2,1) 0.659)臨床的に整合した解釈可能なスコアを生成し、先行のエンドツーエンド評価フレームワークよりも優れていた。
- 本結果は、Harf-Speechが、単なる汎用的な発音スコアの精度だけでなく、臨床的整合性に重点を置くことで、評価者間の専門家一致に匹敵するスコアを出力できることを示している。




