Abstract
既存の音声ディープフェイク検出・ローカリゼーションモデルは、音声基盤モデル(SFM)から抽出された表現に大きく依存しています。しかし、下流での微調整(finetuning)は現在、限界的な効果の減少という状態に到達しています。本論文では、焦点を事前学習へと移し、ボトルネック付きのマスク埋め込み予測と、フローマッチングに基づくスペクトログラム復元を組み合わせた新しいレシピを提案します。その結果であるAlethiaは、さまざまな音声ディープフェイク検出・ローカリゼーションタスクのための、最初の基盤オーディオエンコーダです。56個のベンチマークデータセットにまたがる5つの異なるタスクで評価を行い、Alethiaが、現実世界の擾乱に対する頑健性と、未見のドメイン(例:歌唱ディープフェイク)へのゼロショット汎化において、最先端のSFMよりも大幅に優れていることを示します。また、マスクトークン予測における離散的ターゲットの限界を示し、ディープフェイクのアーティファクトを捉えるうえで、連続的埋め込み予測と生成的な事前学習が重要であることを示します。


