DiffAnon:拡散モデルによる韻律(プロソディ)制御を用いた音声匿名化
arXiv cs.LG / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声匿名化における重要な課題である「韻律(プロソディ)を保持するか否か」について、韻律が意味や感情を伝える一方で話者の識別性とも結びついている点に焦点を当てています。
- DiffAnonは拡散ベースの匿名化フレームワークで、classifier-free guidance(CFG)により推論時に韻律保持を連続的かつ明示的に制御できる仕組みを提案します。
- DiffAnonはRVQコーデックのセマンティック埋め込み上で音響的な詳細を洗練させることで、匿名化を強める方向と韻律の忠実度を高める方向の間を1つのモデル内で滑らかに補間できるようにします。
- 実験では、ユーティリティ(有用性)とプライバシーの間のトレードオフが構造化されており、複数の制御可能な動作点で高い有用性を保ちながら競争力のあるプライバシーを維持できることを示しています。
- 著者らは、推論時に韻律を「構造化しつつ補間可能な形で」制御できる初めての音声匿名化手法だと主張しています。




