要旨: 大規模言語モデル(LLMs)は、大規模音声言語モデル(LALMs)の知識バックボーンとして広く使用されてきましたが、テキストのみの事前学習を通じて彼らがどれだけの聴覚知識をエンコードしているか、そしてこれが下流の性能にどのように影響するかは未だ不明です。私たちは、2つのテキストのみの設定と1つの音声基盤設定の下で異なるLLMsを比較することでこのギャップを検討します:(1) AKB-2000 に対する直接探索、聴覚知識の幅と深さを評価する厳選されたベンチマーク; (2) カスケード評価、ここでは LLMs が音声キャプショナーのテキスト記述を用いて推論します; (3) 音声基盤評価、各 LLM は音声エンコーダを備えた Large Audio Language Model(LALM)にファインチューニングされます。私たちの知見は、聴覚知識がファミリー間で大幅に異なること、テキストのみの結果が音声性能と強く相関することを示しています。本研究は、音声研究におけるLLMsの包括的な理解のための実証的根拠を提供します。
LLMバックボーンの聴覚知識が音声言語モデルを形づくる: 包括的評価
arXiv cs.CL / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMバックボーンに聴覚知識がテキストのみの事前学習を通じてどのようにエンコードされるかと、それが下流の大規模音声言語モデル(LALM)パフォーマンスに与える影響を調査している。
- 評価設定は3つを用いる:AKB-2000への直接プローブ、音声キャプショナーによるテキスト記述を用いたカスケード評価、そして音声エンコーダを用いてLLMsをLALMsへファインチューニングして行う音声グラウンデッド評価。
- 発見は、モデルファミリー間で聴覚知識に大きなばらつきがあることと、テキストのみの結果と音声パフォーマンスとの強い相関があることを示している。
- 本研究は、音声研究におけるLLMsの理解を裏づける実証的根拠を提供し、大規模音声言語モデルを設計・評価する際の指針を示している。
