ディープフェイク音声検出のための教師ありコントラスト学習における類似度選択と負のスケーリング

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ディープフェイク音声検出に特化して教師ありコントラスト学習（SupCon）を制御された条件で検証し、SupConを単なる既成の部品として扱う既存研究との差を示しています。
wav2vec2 XLS-R（300M）を用いた実験では、SupConにおける主要設計要因として「類似度指標（コサイン vs 超球面角度から導く類似度）」と「負例のスケーリング戦略（ウォームスタートしたグローバルなクロスバッチキュー）」の2点を変化させます。
学習は2段階で行い、まずエンコーダと投影ヘッドをSupConで微調整し、その後それらを凍結してBCEによる線形分類器を学習します。
遅延キューを用いたコサインSupConが、ITWのEER（8.29%）とプールドEER（4.44）で最良の性能を達成し、さらに角度類似度もキュー付き負例なしで強い結果を示します。
これらの結果は、SupConの設定（類似度や負例の扱い）を狙って最適化することで、複数データセットにまたがるディープフェイク音声検出性能が大きく変わり得ることを示唆しています。

概要: 教師ありコントラスト学習（SupCon）は表現を形成するために広く用いられているが、音声ディープフェイク検出に対しては限定的な、狙いを定めた研究しか行われていない。既存研究では一般に、コントラスト項をより広いパイプラインと組み合わせることが多いが、SupConそのものに焦点を当てた研究が欠けている。本研究では、wav2vec2 XLS-R（300M）を用いて、(i) SupConにおける類似度（cosine vs 超球面角から導出したangular similarity）と、(ii) warm-startしたグローバルなクロスバッチキューによるネガティブのスケーリングを変化させる、制御された検証を行う。ステージ1ではSupConでエンコーダと投影ヘッドを微調整し、ステージ2ではそれらを凍結してBCEで線形分類器を学習する。ASVspoof 2019 LAで学習し、ASV19 evalに加えてITWとASVspoof 2021 DF/LAで評価する。遅延キューを用いたCosine SupConは、最良のITW EER（8.29%）およびプールドEER（4.44）を達成し、一方でangular similarityはキュー付きネガティブなしでも強い性能を示す（ITW 8.70）。これは、大規模なネガティブ集合への依存が低減されていることを示唆している。