パシュト語ASRのためのWhisper微調整：戦略とスケール

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Whisper の事前学習コーパスにパシュト語が含まれていないため、そのままだとパシュト語音声が別スクリプトに出力され、WER が極めて高く実運用に不向きであることを指摘しています。
whisper-base に対して 4 つの微調整戦略（フルファインチューニング、LoRA、エンコーダ凍結、ウルドゥ→パシュト転移）を比較し、フルファインチューニングが CV20 で最良となり、WER 21.22% を達成したと報告しています。
エンコーダ凍結は（2/6 〜 6 層の設定では）層の役割分離仮説が成り立たず学習能力が減るため性能が悪化し、ウルドゥ→パシュト転移も中間チェックポイント未検証・音韻不一致などで失敗したと説明しています。
データ規模を 113 時間（CV24）に拡張した結果、whisper-small が実用上の最適点（WER 24.89%）で、whisper-large-v3-turbo は 23.37% まで改善するが逓減的な伸びに留まることが示されました。
学習に合わせたオンライン拡張で追加の WER 改善が得られ、主要な誤りは語末接尾辞の性による混同や、パシュト特有の /ts/ を含む置換だと誤り分析で特定しています（ファインチューニング済みチェックポイントと評価スクリプトは HuggingFace で公開）。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH