Evolutionary Multi-Objective Fusion of Deepfake Speech Detectors
arXiv cs.LG / 4/3/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 既存のSSLベース深fake音声検出器は高精度だが、単純なアンサンブル融合は巨大化しやすく効果が頭打ちになる点を問題としている。
- NSGA-IIによる進化的マルチ目的最適化で「検出誤差」と「システム複雑性」を同時に最小化するスコア融合フレームワークを提案している。
- 検出器の選択(スコア平均用のバイナリ符号)と、検出器重み(重み付き和用の実数符号)の2種類の符号化を検討し、ASVspoof 5の36のSSLベース検出器で評価している。
- Paretoフロントにより、単純平均やロジスティック回帰のベースラインを上回るトレードオフ解を提示し、実数版ではEER 2.37%(minDCF 0.0684)かつパラメータ数を約半減してSOTA同等構成を見いだせると報告している。
- 多様なトレードオフ解を提供することで、精度と計算コストのバランスをとった実運用(デプロイメント)判断を支援することを狙っている。
Related Articles

90000 Tech Workers Got Fired This Year and Everyone Is Blaming AI but Thats Not the Whole Story
Dev.to

Microsoft’s $10 Billion Japan Bet Shows the Next AI Battleground Is National Infrastructure
Dev.to

TII Releases Falcon Perception: A 0.6B-Parameter Early-Fusion Transformer for Open-Vocabulary Grounding and Segmentation from Natural Language Prompts
MarkTechPost

The house asked me a question
Dev.to

Precision Clip Selection: How AI Suggests Your In and Out Points
Dev.to