WAND: 効率的な自己回帰テキスト読み上げモデルのためのウィンドウ付き注意機構と知識蒸留

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、自己回帰型テキスト読み上げ(AR-TTS)モデルを、系列長が伸びてもメモリ/計算量が一定となるように動作させるためのWAND(Windowed Attention and Knowledge Distillation)を提案する。
  • WANDは注意機構を改変し、条件付けトークンに対しては永続的なグローバル注意を用い、生成トークンに対してはスライディングウィンドウ(局所)注意を用いることで、二次的なスケーリングを回避する。
  • 注意ウィンドウを時間とともに徐々に狭めていくカリキュラム学習により、微調整の安定性を高める。
  • 方法として、全注意(full-attention)の教師モデルからの知識蒸留を用い、高忠実度な音声品質を維持しつつデータ効率を向上させる。
  • 3つの最新のAR-TTSモデルに対する実験では、音質の維持を確認しつつ、KVキャッシュのメモリを最大66.2%削減し、1ステップあたりのレイテンシもほぼ一定であることを示す。

要旨: 近年のデコーダのみの自己回帰的テキスト音声合成(AR-TTS)モデルは高音質な音声を生成できる一方で、完全な自己注意(self-attention)により、系列長に対してメモリと計算コストが二次的に増大します。本論文では、一定の計算量とメモリ計算量で動作するように事前学習済みAR-TTSモデルを適応させる枠組み「WAND(Windowed Attention and Knowledge Distillation)」を提案します。WANDは、注意機構を2つに分離します。条件付けトークンに対する持続的なグローバル注意と、生成トークンに対する局所的なスライディングウィンドウ注意です。微調整を安定化するために、注意ウィンドウを段階的に厳密化していくカリキュラム学習戦略を採用します。さらに、高データ効率のもとで高忠実度の合成品質を回復するために、完全注意の教師からの知識蒸留も利用します。3つの最新のAR-TTSモデルで評価した結果、WANDは元の品質を維持しつつ、最大でKVキャッシュのメモリを66.2%削減し、長さ不変で、1ステップあたりの遅延がほぼ一定であることを達成しました。