エンコーダ深度の役割について：SLAM-ASRにおけるWhisperの剪定とLoRA微調整

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Whisper音声エンコーダの層を剪定した場合にSLAM-ASRの性能がどのように変化するかを調査し、エンコーダ全体のエンコーダ-デコーダ構成ではなく、音響バックボーンとして用いるエンコーダ部分に焦点を当てている。

Abstract

自動音声認識（ASR）は、大規模な事前学習済みモデルや、SLAM-ASRのようなエンドツーエンド・アーキテクチャの登場によって、近年急速に進展してきました。SLAM-ASRシステムの重要な構成要素はWhisperの音声エンコーダであり、堅牢な音響表現を提供します。モデル剪除（pruning）は、Whisperのエンコーダ・デコーダ全体のアーキテクチャに対して検討されてきましたが、SLAM-ASRの設定におけるその影響は十分に調査されていません。本研究では、SLAM-ASRの音響バックボーンとして用いた場合の、Whisperエンコーダにおける層剪除の効果を分析します。さらに、LoRAベースの微調整によって、剪除による性能低下をどこまで回復できるかを検討します。Small、Medium、Large-v2という3つのWhisperバリアント、資源量の異なる3つの言語（デンマーク語、オランダ語、英語）、および200回を超える学習実行を通じて行われた実験により、エンコーダ層を2層剪除するとWERの低下はわずか2〜4%にとどまること、また、この剪除とLoRA適応を組み合わせると、剪除なしのベースラインを一貫して上回り、同時に総パラメータ数を7〜14%削減できることが示されます。さらに誤り分析から、LoRAは主に言語モデルの言語的事前知識（linguistic priors）によって補償しており、オランダ語と英語では総単語誤りが11〜21%減少し、置換と削除が最大の減少を示すことが明らかになりました。しかし、低資源のデンマーク語では減少幅は小さく（4〜7%）、LoRAは挿入誤りの増加を引き起こすため、補償の有効性はLLMの事前に備わった言語能力と利用可能な学習データ量に依存することが示唆されます。