要旨: 近年の拡散ベースのテキスト音声合成(TTS)モデルは高い自然性と表現力を達成していますが、しばしば話者ドリフトに悩まされます。話者ドリフトとは、1つの発話の中で知覚される話者アイデンティティが微妙に、しかし徐々に変化していく現象です。この十分に調査されていない現象は、特に長時間形式や対話的な設定において、合成音声の一貫性を損ないます。私たちは、発話レベルの話者一貫性に関する二値分類課題として定式化することで、話者ドリフトを検出するための最初の自動フレームワークを提案します。提案手法では、合成音声の重なり合う区間間でコサイン類似度を計算し、ドリフトを評価するために、構造化された表現で大規模言語モデル(LLM)にプロンプトを与えます。コサインに基づくドリフト検出に関する理論的保証を提示し、話者埋め込みが単位球面上で意味のある幾何学的クラスタリングを示すことを実証します。評価を支援するために、人間による妥当性確認を受けた話者ドリフト注釈を伴う高品質な合成ベンチマークを構築します。複数の最先端LLMを用いた実験により、この埋め込みから推論へ至るパイプラインの実行可能性が確認されます。本研究は、話者ドリフトを独立した研究課題として確立し、現代的なTTSにおける幾何学的信号解析とLLMベースの知覚的推論を橋渡しします。
合成音声における話者ドリフト検出のための新しい自動フレームワーク
arXiv cs.AI / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 拡散モデルに基づくTTSは「話者ドリフト」を生じ得る。これは、発話の進行に伴って合成音声が徐々に話者アイデンティティとして知覚されるものを変化させ、長時間の内容や対話的利用において一貫性を損なう。
- 著者らは、ドリフトを二値の「話者一貫性」分類問題として捉え直す、自動の話者ドリフト検出フレームワークを提案する。具体的には、重なり合う合成音声セグメントに対するコサイン類似度を用い、さらにLLMに基づく構造化された評価を組み合わせる。
- コサイン類似度ベースの検出アプローチに対する理論的保証を提示し、話者埋め込みが単位球面上で意味のある幾何学的クラスタを形成することを示す。
- 人手で検証したドリフト注釈を備えた新しい合成ベンチマークを導入し、信頼できる評価を可能にする。
- 複数の最先端LLMを用いた実験により、埋め込みから推論へ至るパイプラインが話者ドリフトを効果的に検出できることを示し、幾何学に基づく信号解析とLLMによる知覚的推論をつなぐ、単独の研究方向として位置付ける。




