ディープフェイク音声検出器の進化的多目的フュージョン

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

既存のSSLベース深fake音声検出器は高精度だが、単純なアンサンブル融合は巨大化しやすく効果が頭打ちになる点を問題としている。
NSGA-IIによる進化的マルチ目的最適化で、「検出誤差」と「システム複雑性」を同時に最小化するスコア融合フレームワークを提案している。
検出器の選択（スコア平均用のバイナリ符号）と、検出器重み（重み付き和用の実数符号）の2種類の符号化を検討し、ASVspoof 5の36のSSLベース検出器で評価している。
Paretoフロントにより、単純平均やロジスティック回帰のベースラインを上回るトレードオフ解を提示している。実数版ではEER 2.37%（minDCF 0.0684）かつパラメータ数を約半減し、SOTA同等の構成を見いだせると報告している。
多様なトレードオフ解を提供することで、精度と計算コストのバランスをとった実運用（デプロイメント）判断を支援することを狙っている。

アブストラクト: 大規模な自己教師あり学習（SSL）モデルに基づくディープフェイク音声検出器は高い精度を達成していますが、頑健性をさらに高めるために標準的なアンサンブル融合を用いると、多くの場合、過剰に大きなシステムになり、期待に反して効果が頭打ちになります。そこで本研究では、検出誤りとシステム複雑性を同時に最小化する進化的な多目的スコア融合フレームワークを提案します。NSGA-II によって最適化された2つの符号化方式を検討します。1つはスコア平均化のための二値化された検出器選択であり、もう1つは検出器の重みを最適化して重み付き和を行う実数値の方式です。36個のSSLベース検出器を用いたASVspoof 5データセットでの実験により、得られたパレートフロントが、単純平均およびロジスティック回帰のベースラインを上回ることを示します。実数値の変種は EER が2.37%（0.0684 minDCF）を達成し、最先端性能に一致する構成を特定しつつ、システム複雑性を大幅に低減できることがわかります。必要なパラメータは半分で済みます。本手法はまた、多様なトレードオフ解の集合を提供し、精度と計算コストのバランスをとった導入判断を可能にします。