連続拡散音声言語モデルのスケーリング特性

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、音声のみの音声言語モデル（SLM）がテキスト系モデルに比べて性能面で遅れている状況を踏まえ、連続拡散（CD）SLMが離散自己回帰（AR）SLMより実用的になり得るかを検討しています。
言語的品質を定量化するために、音素 Jensen-Shannon divergence（pJSD）という評価指標を導入し、CD SLMが検証損失とpJSDに関してARと同様のスケーリング則に従うことを示しています。
計算規模（compute）が大きくなるほど最適なトークン対パラメータ比が低下する一方で、条件によっては損失がデータセットやモデルサイズの選択に対して鈍感になり得ると述べ、推論の高速化の可能性を示唆しています。
CD SLMを最大160億パラメータまでスケールし、対話データを数千万時間投入すると、感情性・韻律・マルチ話者・多言語の音声生成が可能になる一方で、長文の整合性は依然として大きな課題です。
総じて、本研究は拡散ベースのSLMをどのようにスケールすべきかの指針を与えると同時に、効率面の有望な兆候と長時間対話生成に関する残課題を明確にしています。

概要: 音声のみの話し言葉モデル（SLM）は、テキストおよびテキスト音声変換モデルに比べて性能が遅れています。近年の離散自己回帰（AR）SLMでは、テキストモデルに匹敵するために大きな計算量とデータ量が必要であることが示されています。自己回帰のために連続音声を離散化するとボトルネックが生じるため、本研究では連続拡散（CD）SLMのほうがより実行可能かどうかを検討します。SLMの言語的品質を定量化するために、音素ジェンセン・シャノン距離（pJSD）指標を導入します。解析の結果、CD SLMはARと同様の挙動を示し、検証損失とpJSDに関するスケーリング則を持つこと、また計算量が大きくなるにつれて最適なトークン数対パラメータ比が減少することが分かりました。しかし後者については、データ量およびモデルサイズの選択に対して損失が鈍感になり、高速推論の可能性が示されます。会話データ数千万時間規模で、16BパラメータのCD SLMをスケールすると、情動的で韻律（プロソディ）に富み、多話者・多言語の音声を生成できます。一方で、長文にわたる一貫性を達成することは依然として大きな課題です。