WAND: 効率的な自己回帰テキスト読み上げモデルのためのウィンドウ付き注意機構と知識蒸留

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、自己回帰型テキスト読み上げ（AR-TTS）モデルを、系列長が伸びてもメモリ／計算量が一定となるように動作させるためのWAND（Windowed Attention and Knowledge Distillation）を提案する。
WANDは注意機構を改変し、条件付けトークンに対しては永続的なグローバル注意を用い、生成トークンに対してはスライディングウィンドウ（局所）注意を用いることで、二次的なスケーリングを回避する。
注意ウィンドウを時間とともに徐々に狭めていくカリキュラム学習により、微調整の安定性を高める。
方法として、全注意（full-attention）の教師モデルからの知識蒸留を用い、高忠実度な音声品質を維持しつつデータ効率を向上させる。
3つの最新のAR-TTSモデルに対する実験では、音質の維持を確認しつつ、KVキャッシュのメモリを最大66.2%削減し、1ステップあたりのレイテンシもほぼ一定であることを示す。

要旨: 近年のデコーダのみの自己回帰的テキスト音声合成（AR-TTS）モデルは高音質な音声を生成できる一方で、完全な自己注意（self-attention）により、系列長に対してメモリと計算コストが二次的に増大します。本論文では、一定の計算量とメモリ計算量で動作するように事前学習済みAR-TTSモデルを適応させる枠組み「WAND（Windowed Attention and Knowledge Distillation）」を提案します。WANDは、注意機構を2つに分離します。条件付けトークンに対する持続的なグローバル注意と、生成トークンに対する局所的なスライディングウィンドウ注意です。微調整を安定化するために、注意ウィンドウを段階的に厳密化していくカリキュラム学習戦略を採用します。さらに、高データ効率のもとで高忠実度の合成品質を回復するために、完全注意の教師からの知識蒸留も利用します。3つの最新のAR-TTSモデルで評価した結果、WANDは元の品質を維持しつつ、最大でKVキャッシュのメモリを66.2%削減し、長さ不変で、1ステップあたりの遅延がほぼ一定であることを達成しました。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

WAND: 効率的な自己回帰テキスト読み上げモデルのためのウィンドウ付き注意機構と知識蒸留

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず