PHONOS: オンラインストリーミングアプリケーション向けの音韻的中和(PHOnetic Neutralization)
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ストリーミング向けのリアルタイム話者匿名化モジュールであるPHONOSを提案し、非ネイティブ訛りによって匿名化集合が狭まることが原因となる識別リスクを低減する。
- PHONOSは、元の音色とリズムを保持しつつ、外来の音韻的音(segmental sounds)をネイティブのものに置換する、沈黙を考慮したDTWアライメントとゼロショット音声変換によって生成済みの「golden(模範)話者発話」を用いる。
- さらに、因果(causal)のアクセント・トランスレータを訓練し、非ネイティブのコンテンツ・トークンをネイティブに近い同等物へ変換する。最大でも40msの先読み(look-ahead)で動作し、結合した交差エントロピー(cross-entropy)損失とCTC損失で最適化する。
- 実験では、非ネイティブ訛りに関する信頼度が81%低下し、人による聴取テストの評価が向上したことに加え、埋め込み空間における話者のリンク可能性が低減し、単一GPUでストリーミング遅延が241ms未満となることを報告している。



