DiffAnon：拡散モデルによる韻律（プロソディ）制御を用いた音声匿名化

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、音声匿名化における重要な課題である「韻律（プロソディ）を保持するか否か」について、韻律が意味や感情を伝える一方で話者の識別性とも結びついている点に焦点を当てています。
DiffAnonは拡散ベースの匿名化フレームワークで、classifier-free guidance（CFG）により推論時に韻律保持を連続的かつ明示的に制御できる仕組みを提案します。
DiffAnonはRVQコーデックのセマンティック埋め込み上で音響的な詳細を洗練させることで、匿名化を強める方向と韻律の忠実度を高める方向の間を1つのモデル内で滑らかに補間できるようにします。
実験では、ユーティリティ（有用性）とプライバシーの間のトレードオフが構造化されており、複数の制御可能な動作点で高い有用性を保ちながら競争力のあるプライバシーを維持できることを示しています。
著者らは、推論時に韻律を「構造化しつつ補間可能な形で」制御できる初めての音声匿名化手法だと主張しています。

Abstract

韻律（プロソディ）を保持するべきか、あるいは保持しないべきかは、声の匿名化における中心的な課題である。韻律は意味や感情的な要素を伝える一方で、話者のアイデンティティと密接に結び付いている。既存の手法は、プライバシーのために韻律を捨て去るか、あるいは有用性とプライバシーのトレードオフを制御するための原理的な仕組みを欠いており、固定された設計点で動作する。私たちは、拡散（ディフュージョン）に基づく匿名化手法 DiffAnon と、クラシファイアフリー・ガイダンス（CFG）を提案する。これにより、推論時に韻律保持を明示的かつ連続的に制御できる。DiffAnon は、RVQ コーデックの意味埋め込み上で音響の詳細を洗練（リファイン）し、単一モデルの内部で匿名化の強度と韻律の忠実度の間を、滑らかに補間できるようにする。私たちの知る限り、本手法は構造化され、補間可能な推論時の韻律制御を提供する最初の音声匿名化フレームワークである。実験により、構造化されたトレードオフ挙動が示され、制御可能な運用点において競争力のあるプライバシーを維持しつつ強力な有用性を達成できることが示された。