何を強調するべきかを知る:談話条件付テキスト読み上げ(TTS)ベンチマーク

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、談話コンテキストに基づいて単語レベルの強勢をTTSシステムが正しく選べるかどうかを検証するための新しいベンチマークである Context-Aware Stress TTS(CAST)を提案する。
  • 評価項目は、対照的なコンテキスト・ペアとして構築される。すなわち、同一の文を、異なる意味(例:訂正 vs. 対比)を反映するために異なる強調語付きで発話しなければならない。
  • 結果は一貫した不一致を示す。すなわち、テキストのみの言語モデルはコンテキストから意図された強勢を推論できるが、TTSシステムは生成音声にその強勢を適切に反映できないことが多い。
  • 著者らは、追随研究を可能にするために、ベンチマーク、評価フレームワーク、構築パイプライン、合成コーパスを公開する。