Fine-tuning Whisper for Pashto ASR: strategies and scale
arXiv cs.CL / 4/9/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Whisper の事前学習コーパスにパシュト語が含まれていないため、そのままだとパシュト語音声が別スクリプトに出力され、WER が極めて高く実運用に不向きであることを指摘しています。
- whisper-base に対して 4 つの微調整戦略(フルファインチューニング、LoRA、エンコーダ凍結、ウルドゥ→パシュト転移)を比較し、フルファインチューニングが CV20 で最良となり、WER 21.22% を達成したと報告しています。
- エンコーダ凍結は(2/6 〜 6 層の設定では)層の役割分離仮説が成り立たず学習能力が減るため性能が悪化し、ウルドゥ→パシュト転移も中間チェックポイント未検証・音韻不一致などで失敗したと説明しています。
- データ規模を 113 時間(CV24)に拡張した結果、whisper-small が実用上の最適点(WER 24.89%)で、whisper-large-v3-turbo は 23.37% まで改善するが逓減的な伸びに留まることが示されました。
- 学習に合わせたオンライン拡張で追加の WER 改善が得られ、主要な誤りは語末接尾辞の性による混同や、パシュト特有の /ts/ を含む置換だと誤り分析で特定しています(ファインチューニング済みチェックポイントと評価スクリプトは HuggingFace で公開)。
Related Articles

Black Hat Asia
AI Business

Amazon CEO takes aim at Nvidia, Intel, Starlink, more in annual shareholder letter
TechCrunch

Why Anthropic’s new model has cybersecurity experts rattled
Reddit r/artificial
Does the AI 2027 paper still hold any legitimacy?
Reddit r/artificial

Why Most Productivity Systems Fail (And What to Do Instead)
Dev.to