表現力のあるプロンプト:ゼロショットTTSにおける感情強度と話者一貫性の改善
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ゼロショットでプロンプト駆動のTTSシステムにおける重要な弱点に取り組む。すなわち、既存のプロンプト選択手法では、安定した話者アイデンティティの手がかりや、適切に校正された感情強度の信号が得られない可能性がある。
- 感情表現のある音声合成のための2段階のプロンプト選択戦略を提案する。そこでは、静的評価(ピッチ/プロソディ特徴、知覚的な音質、LLMに基づくテキストと感情の整合性、文字誤り率や話者/感情の類似度といったモデルベースの指標)と、合成中にテキストの類似度に基づいて行う動的な選択ステップを組み合わせる。
- 実験の結果、この手法は、ゼロショットTTS出力において頑健な話者アイデンティティの一貫性を維持しつつ、感情強度の向上を実現することが示される。
- 著者らは、音声サンプルとコードを公開する計画であり、これにより追試評価と、感情表現がありかつアイデンティティが一貫したTTSワークフローへのプロンプト戦略の実用的な再利用が可能になる。
