マルチモーダル・深度アップスケーリングによる音声へのテキストLLM適応

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事前学習済みのテキストLLMを音声言語モデルへ適応するために、凍結したテキストLLMに新たなトランスフォーマ層を挿入し、音声データで追加した層のみを学習する「マルチモーダル・深度アップスケーリング」を提案する。
SmolLM2-360MおよびSmolLM2-1.7Bに対し、48k時間の英語ASRデータで実験した結果、この手法は全量ファインチューニングと同等のASR性能を達成しつつ、モデル本来のテキスト能力をより良く保持することが示された。
全量ファインチューニングおよびLoRAと比較して、深度アップスケーリングはテキスト能力の低下を大幅に抑えながら、強力な音声認識品質を維持する。
著者らはさらに、挿入する層としてE-Branchformerを用いることで結果を改善し、大きいモデルにおいて全量ファインチューニングに匹敵、あるいは上回るASRを達成するとともに、テキスト劣化を75%以上減らしつつ、学習可能パラメータを60%削減する。

要旨: 音声データに対する継続的事前学習（continual pretraining）によって、事前学習済みのテキスト大規模言語モデル（LLM）を音声言語モデル（Speech LMs）へ適応させることは有望ですが、多くの場合、元のテキスト能力を低下させてしまいます。私たちは、継続的LLM事前学習における新たに注目されつつある戦略を拡張した Multimodal Depth Upscaling（マルチモーダル深さアップスケーリング）を提案します。この手法では、凍結したテキストLLMに新しいトランスフォーマ層を挿入し、音声データ上で学習するのは追加された層のみとします。SmolLM2-360M と SmolLM2-1.7B を、48,000時間分の英語自動音声認識（ASR）データで実験した結果、深さアップスケーリングは、全量微調整と同等のASRを達成しながら、全量微調整および低ランク適応（LoRA）の両方に比べてテキストの劣化を大幅に抑えることが分かりました。さらに、音声認識のために設計されたアーキテクチャである E-Branchformer を、挿入層として組み込むことで、より大きなモデルにおいて全量微調整と同等、あるいはそれを上回るASRを実現しつつ、学習可能なパラメータを60%削減し、テキスト劣化を75%以上低減できることを示します。