ストリーミングTTSモデルにおけるミスについて、議論がこれほど少ないのがちょっと意外です。
人々は自然な読み上げ、高い音声品質、表情豊かな発話を求めます。そしてほとんどのモデルは、ここではバカみたいになって失敗しません。失敗するのは、価格、日付、URL、プロモコード、電話番号といった基本的なものを与えたときです。
なので私はいくつか情報を探していたところ、商用のリアルタイム・ストリーミングTTSモデルを、日付、URL、頭字語などの発音の点で比較しているベンチマークを見つけました。31のカテゴリで1000文以上をチェックし、その上でGeminiを使って結果がどう出たかを確認しています。https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html 。私には妥当なように見えます。
もちろんこれはベンダーのベンチマークなので、鵜呑みにするつもりはありませんが、焦点は的を射ているように感じます。
これは私たちの本番環境での制作において、最大級の課題の一つでした。みなさんは実際にそれをどう扱っているのか気になります。
[link] [comments]
