PHONOS: オンラインストリーミングアプリケーション向けの音韻的中和（PHOnetic Neutralization）

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ストリーミング向けのリアルタイム話者匿名化モジュールであるPHONOSを提案し、非ネイティブ訛りによって匿名化集合が狭まることが原因となる識別リスクを低減する。
PHONOSは、元の音色とリズムを保持しつつ、外来の音韻的音（segmental sounds）をネイティブのものに置換する、沈黙を考慮したDTWアライメントとゼロショット音声変換によって生成済みの「golden（模範）話者発話」を用いる。
さらに、因果（causal）のアクセント・トランスレータを訓練し、非ネイティブのコンテンツ・トークンをネイティブに近い同等物へ変換する。最大でも40msの先読み（look-ahead）で動作し、結合した交差エントロピー（cross-entropy）損失とCTC損失で最適化する。
実験では、非ネイティブ訛りに関する信頼度が81%低下し、人による聴取テストの評価が向上したことに加え、埋め込み空間における話者のリンク可能性が低減し、単一GPUでストリーミング遅延が241ms未満となることを報告している。

Abstract

話者匿名化（SA）システムは、韻質（timbre）を変更しながら地域的または非ネイティブなアクセントをそのまま残します。しかし、アクセントは匿名化集合を狭め得るため、この点は問題です。そこで本研究では、リアルタイムSAのためのストリーミングモジュールであるPHONOSを提案します。PHONOSは、非ネイティブなアクセントを中和してネイティブらしい音にします。我々の手法では、ゴールデン話者発話を事前生成し、発話の元の韻質とリズムを保持しつつ、沈黙を考慮したDTWアラインメントとゼロショット音声変換によって外国語の子音・母音（segmentals）をネイティブなものに置き換えます。これらの発話により、因果的なアクセント・トランスレータを学習させます。このトランスレータは、非ネイティブなコンテンツトークンをネイティブな同等のものへ写像し、最大でも40msの先読み（look-ahead）で動作します。学習には、結合したクロスエントロピー（cross-entropy）とCTC損失を用います。評価の結果、非ネイティブなアクセントの確信度が81%低減することを示しました。リスニングテストの評価もこの変化と整合しており、さらに、アクセントが中和された発話が埋め込み空間で元の話者から離れるにつれて話者のリンク可能性が低下しました。加えて、単一GPU上で遅延が241ms未満であることを確認しました。