要旨: 文のみの言語モデルにおいて、文脈内学習(In-Context Learning; ICL)は広く研究されてきましたが、音声領域ではほとんど未検討のままです。ここでは、言語的特徴と音響的特徴が音声言語モデルにおけるICLにどのように影響するかを調査します。本研究では、Text-to-Speech(TTS)タスクに焦点を当てます。これにより、ICLを二つの観点から分析できます:(1)デモンストレーションからタスクをどれだけ正確に推論できているか(すなわち、正しい話し言葉の内容を生成できているか)、および(2)モデルの出力が、デモンストレーション音声の音響的特性をどの程度まで模倣しているか、という点です。話速がICLの性能に強く影響し、さらに出力にもその模倣が見られることが分かりました。一方で、ピッチレンジと強度は性能への影響が小さく、また一貫して再現されるわけではありません。最後に、音声に基づくICLにおける誘導ヘッド(induction heads)の役割を調査し、これらのヘッドが因果的な役割を果たしていることを示します。上位k個の誘導ヘッドをアブレーションすると、モデルのICL能力が完全に失われ、テキストに基づくICLに関する知見と同様の結果が得られます。
音声言語モデルにおけるインコンテキスト学習:音響特徴、言語構造、誘導ヘッドの役割の分析
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、デモンストレーションを用いたText-to-Speech(TTS)構成により、内容の正確さと音響模倣の両方を検証することで、音声言語モデルにおけるインコンテキスト学習(ICL)を研究している。
- speaking rate(発話速度)がICL性能の主要な駆動要因であり、生成される音声にも反映される一方で、pitch range(ピッチ範囲)やintensity(強度)は寄与が小さく、再現も一貫していないことを見いだす。
- 研究では、言語的要因と音響的要因が、例から課題を推論するモデルの能力、およびデモンストレーション音声の特性を模倣する能力にどのように影響するかを分析する。
- さらに、誘導ヘッド(induction heads)が音声ベースのICLに因果的な役割を果たすことを示す。上位k個の誘導ヘッドをアブレーション(除去)すると、モデルのICL能力が失われ、テキストベースモデルでの先行結果と整合する。



