ストリーミング型テキスト読み上げ(TTS)におけるテキスト正規化が、こんなに話題にされていないのが信じられない [D]

Reddit r/MachineLearning / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 記事では、ストリーミング型テキスト読み上げ(TTS)における基本的なテキスト正規化のミスについての議論が少ないと主張しています。
  • モデルは全体として自然に聞こえる一方で、価格・日付・URL・プロモコード・電話番号などの入力では失敗しやすいことが指摘されています。
  • 作成者は、31カテゴリにわたり1,000文以上で商用のリアルタイム・ストリーミングTTSモデルを評価し、結果の判定にGeminiを用いるベンチマークを紹介しています。
  • そのベンチマークはベンダー主導であるため割り引いて見るべきだとしつつも、本質的な制作(本番)課題を捉えているように見えると述べています。
  • 作成者は、実運用ではテキスト正規化の問題をどのように扱っているのかを読者に質問しています。

ストリーミングTTSモデルにおけるミスについて、議論がこれほど少ないのがちょっと意外です。

人々は自然な読み上げ、高い音声品質、表情豊かな発話を求めます。そしてほとんどのモデルは、ここではバカみたいになって失敗しません。失敗するのは、価格、日付、URL、プロモコード、電話番号といった基本的なものを与えたときです。

なので私はいくつか情報を探していたところ、商用のリアルタイム・ストリーミングTTSモデルを、日付、URL、頭字語などの発音の点で比較しているベンチマークを見つけました。31のカテゴリで1000文以上をチェックし、その上でGeminiを使って結果がどう出たかを確認しています。https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html 。私には妥当なように見えます。

もちろんこれはベンダーのベンチマークなので、鵜呑みにするつもりはありませんが、焦点は的を射ているように感じます。

これは私たちの本番環境での制作において、最大級の課題の一つでした。みなさんは実際にそれをどう扱っているのか気になります。

submitted by /u/lilitbroyan
[link] [comments]