パシュト語ASRのためのWhisper微調整:戦略とスケール
arXiv cs.CL / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Whisper の事前学習コーパスにパシュト語が含まれていないため、そのままだとパシュト語音声が別スクリプトに出力され、WER が極めて高く実運用に不向きであることを指摘しています。
- whisper-base に対して 4 つの微調整戦略(フルファインチューニング、LoRA、エンコーダ凍結、ウルドゥ→パシュト転移)を比較し、フルファインチューニングが CV20 で最良となり、WER 21.22% を達成したと報告しています。
- エンコーダ凍結は(2/6 〜 6 層の設定では)層の役割分離仮説が成り立たず学習能力が減るため性能が悪化し、ウルドゥ→パシュト転移も中間チェックポイント未検証・音韻不一致などで失敗したと説明しています。
- データ規模を 113 時間(CV24)に拡張した結果、whisper-small が実用上の最適点(WER 24.89%)で、whisper-large-v3-turbo は 23.37% まで改善するが逓減的な伸びに留まることが示されました。
- 学習に合わせたオンライン拡張で追加の WER 改善が得られ、主要な誤りは語末接尾辞の性による混同や、パシュト特有の /ts/ を含む置換だと誤り分析で特定しています(ファインチューニング済みチェックポイントと評価スクリプトは HuggingFace で公開)。



