要旨: 音声匿名化は言語内容を保持しつつ声の特徴をマスクしますが、話者固有のパターンが依然として漏れる可能性があります。プライバシー評価を評価・強化するために、スペクトル特徴と自己教師付き学習特徴を並列エンコーダで融合させ、三段階の訓練戦略を用いるデュアルストリームの攻撃者を提案します。ステージIは基礎的な話者識別表現を確立します。ステージIIは、音声変換と匿名化の共通の同一性変換特性を活用し、モデルを多様な変換済み音声にさらすことで、システム横断の頑健性を構築します。ステージIIIは、ターゲット匿名化データへの軽量な適応を提供します。VPACデータセット上の結果は、ステージIIが一般化の主な推進力であることを示し、未知の匿名化データセットに対しても強力な攻撃性能を可能にします。ステージIIIを用いると、ターゲット匿名化データセットのうちわずか10%のみをファインチューニングするだけで、EERの点で現状の最先端の攻撃者を凌駕します。
DAST: 段階的トレーニングを備えたデュアルストリーム音声匿名化攻撃者
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- DASTは、スペクトル特徴と自己教師付き学習特徴を並列エンコーダを介して融合させ、音声匿名化におけるプライバシーリスクを評価するデュアルストリーム攻撃者である。
- Stage Iでは、基礎となる話者識別表現を構築し、Stage IIでは音声変換と匿名化の共通のアイデンティティ変換特性を活用して、多様な変換済み音声に対する頑健性を訓練する。
- Stage IIIは、対象の匿名化データへの軽量な適応を提供する。
- VPACデータセットを用いた実験は、Stage IIが一般化の主要な推進力であることを示し、未見の匿名化データセットに対して強力な攻撃性能を実現し、Stage IIIをターゲットデータのわずか10%だけ用いると、等誤り率(EER)の点で現状の最先端攻撃者を上回る。
- 本研究は、音声匿名化のプライバシー評価の課題を浮き彫りにし、より頑健な匿名化システムと評価プロトコルの設計に資する。




