境界のない長音声合成

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Borderless Long Speech Synthesis フレームワークは、VoiceDesigner、マルチスピーカー合成、Instruct TTS、長文テキスト合成を横断して長時間音声生成を統合し、グローバルな文脈とパラ言語的手掛かりをより適切に捉えます。
データ面では、'Labeling over filtering/cleaning' 戦略を提案し、監視のためのトップダウン型で多層のグローバル・センテンス・トークン注釈スキーマを導入します。
モデル側では、バックボーンに連続トークナイザーを採用し、Chain-of-Thought 推論と次元ドロップアウトを組み込むことで、複雑な条件下での指示遵守を向上させます。
ネイティブ・エージェント型システムとして設計されており、階層的な注釈はLLMエージェントと合成エンジン間の構造化セマンティック・インターフェースとして機能し、シーン意味論から音素のディテールに至る層状の制御プロトコルを可能にします。

要旨: 現在の多くのテキスト音声合成（TTS）システムは、音声を文ごとに合成して結果をつなぎ合わせるか、プレーンテキスト対話のみから合成を導くかのいずれかです。どちらのアプローチもグローバルな文脈やパラ言語的手掛かりの理解が乏しく、マルチスピーカーの相互作用（割り込み、重なり合う発話）、感情軌道の進化、さまざまな音響環境などの現実世界の現象を捉えることが難しくなります。私たちは、エージェント中心で境界のない長時間オーディオ合成のための Borderless Long Speech Synthesis フレームワークを導入します。単一の狭いタスクを目指すのではなく、VoiceDesigner、マルチスピーカー合成、Instruct TTS、長文テキスト合成を横断する統一的な能力セットとして設計されています。データ面では、"Labeling over filtering/cleaning" 戦略を提案し、Global-Sentence-Token と呼ぶトップダウン型・多層注釈スキーマを設計します。モデル面では、連続トークナイザーを備えたバックボーンを採用し、Chain-of-Thought（CoT）推論と Dimension Dropout を組み合わせて追加します。これらはいずれも複雑な条件下での指示追従を著しく改善します。さらに、このシステムは設計上 Native Agentic であることを示します：階層的注釈は、LLM Agent と合成エンジンの間の Structured Semantic Interface（構造化意味論的インターフェース）としての機能を果たし、シーンの意味論から音素の詳細までを含む階層化された制御プロトコルスタックを作成します。こうしてテキストは情報完結型の広帯域制御チャネルとなり、フロントエンドの LLM があらゆるモダリティの入力を構造化生成コマンドへ変換できるようにし、Text2Speech のパラダイムを borderless long speech synthesis へと拡張します。