パシュトー語における多言語音声モデルのベンチマーク：ゼロショットASR、スクリプト失敗、そしてクロスドメイン評価

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、公的なパシュトー語データセットに対する多言語ASRの、初めての再現可能なマルチモデル・ベンチマークを提示する。評価には、FLEURSのパシュトー語テストセットと、フィルタリングしたCommon Voice 24サブセットの両方を用いる。
ゼロショットASRでは、Whisperやその他の多言語モデルはいずれも全体的に非常に高い誤り率を示す（例：Whisper mediumがCommon Voice 24で461% WERに崩壊する）。一方、SeamlessM4Tが報告されたゼロショット最良結果で、Common Voice 24におけるWERは39.7%である。
スクリプト失敗は、言語識別の監査によって明確に示される。Whisperは、発話の<0.8%でパシュトー語スクリプトのテキストを出力するのに対し、MMS-1B、SeamlessM4T、OmniASRはパシュトー語スクリプトの忠実性が93%以上を超える。これは、WERだけでは重要な失敗モードを見逃し得ることを示している。
パシュトー語ASRモデルをファインチューニングしたもののクロスドメイン試験では、大きな分布外（OOD）劣化が見られる（公表値は約14% WER、最大で32.5〜59%に上昇）。ただし、1つの拡張（augmentation）アプローチは両ドメインで同等の性能を達成し（両方で35.1% WER）、クロスドメイン劣化は観測されなかった。
文字クラスの誤り分析から、パシュトー語特有の音（後屈音系列および側方摩擦音）が主要な誤り要因であることが示され、著者らは、構造的な障壁と、累積的な進展のための順序立てられた研究優先度を提案している。

要旨: パシュトー語は約6,000万〜8,000万人によって話されていますが、共有された公開テストセット上での多言語自動音声認識（ASR）に関する公開ベンチマークは存在しません。本論文では、公開されたパシュトー語データに対する初の再現可能なマルチモデル評価を報告します。対象は、ゼロショットASR、スクリプト（文字体系）レベルの失敗、および微調整モデルのクロスドメイン評価です。ゼロショットASRでは、10モデル（すべての7種類のWhisperサイズ、MMS-1B、SeamlessM4T-v2-large、OmniASR-CTC-300M）を、FLEURSのパシュトー語テストセットと、フィルタリングしたCommon Voice~24サブセットで評価します。ゼロショットのWhisperのWERは90%〜297%で、平均モデルはDecoderのループによるものと整合する形でCommon Voice~24上で461%に崩壊します。SeamlessM4TはCommon Voice~24で39.7%のWERを達成します（投稿時点における、これまでに報告された最良のゼロショット結果）。MMS-1BはFLEURSで43.8%です。スクリプトの失敗については、言語識別の監査により、いずれのWhisperモデルも、発話の0.8%以上でパシュトー語スクリプトの出力を生成しないことが示されます。一方でMMS-1B、SeamlessM4T、およびOmniASRはいずれも93%以上のパシュトー語スクリプト忠実度を超えます。WERだけではこの失敗は明らかになりません。なぜなら、パシュトー語音声に対してアラビア語スクリプトの出力を生成するモデルは、解釈可能な意味でのASRを達成していないからです。クロスドメイン評価では、微調整された5つのパシュトー語ASRモデルを、両方のテストセットで評価します。公開されているWERの数値である14%は、分布外セットで32.5〜59%へと悪化します。さらに、拡張（augmentation）された1つのモデルは、両方のセットでそれぞれ35.1%を達成し、ゼロショットのクロスドメイン劣化（cross-domain degradation）はありません。文字クラス誤りの階層化（stratification）により、パシュトー語固有の音素（後屈系列と側方摩擦音）が、誤りの質量（誤りの大部分）を不釣り合いに占めていることが確認されます。すべての評価は読み上げ音声のみを対象とします。累積的な進歩を阻む5つの構造的障害が特定され、5つの優先順位付き研究課題が提案されます。