表現力のあるプロンプト:ゼロショットTTSにおける感情強度と話者一貫性の改善

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ゼロショットでプロンプト駆動のTTSシステムにおける重要な弱点に取り組む。すなわち、既存のプロンプト選択手法では、安定した話者アイデンティティの手がかりや、適切に校正された感情強度の信号が得られない可能性がある。
  • 感情表現のある音声合成のための2段階のプロンプト選択戦略を提案する。そこでは、静的評価(ピッチ/プロソディ特徴、知覚的な音質、LLMに基づくテキストと感情の整合性、文字誤り率や話者/感情の類似度といったモデルベースの指標)と、合成中にテキストの類似度に基づいて行う動的な選択ステップを組み合わせる。
  • 実験の結果、この手法は、ゼロショットTTS出力において頑健な話者アイデンティティの一貫性を維持しつつ、感情強度の向上を実現することが示される。
  • 著者らは、音声サンプルとコードを公開する計画であり、これにより追試評価と、感情表現がありかつアイデンティティが一貫したTTSワークフローへのプロンプト戦略の実用的な再利用が可能になる。

Abstract

近年の音声合成の進歩により、大規模言語モデル(LLM)ベースのシステムが、入力プロンプトを通じて、内容、音色、話者同一性、感情を制御しながらゼロショット生成を行えるようになってきました。その結果、これらのモデルは生成プロセスを導くために、プロンプト設計に大きく依存しています。しかし、既存のプロンプト選択手法では、表現力のある音声合成に不可欠な、十分に安定した話者同一性の手がかりや、適切な感情の強度指標をプロンプトに含めることを保証できないことが多いです。 この課題に対処するために、我々は表現力のある音声合成のために特化した2段階のプロンプト選択戦略を提案します。静的段階(合成の前)では、まずピッチベースの韻律特徴、知覚的なオーディオ品質、ならびにLLMによって評価されるテキスト—感情の整合スコアを用いて、プロンプト候補を評価します。さらに、特定のTTSモデルの下で、合成音声とプロンプト音声の間の文字誤り率、話者類似度、感情類似度を測定することで候補を評価します。動的段階(合成中)では、テキスト類似性モデルを用いて、現在の入力テキストと最も整合するプロンプトを選択します。実験結果は、提案戦略が、高強度の感情表現と堅牢な話者同一性の両方を備えた音声を合成するためのプロンプトを効果的に選択できることを示しており、その結果、より表現力があり安定したゼロショットTTS性能につながります。音声サンプルとコードは https://whyrrrrun.github.io/ExpPro.github.io/ で利用可能です。