音声ディープフェイク検出：話者中心の改ざん分析を超える新たな視点

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くのディープフェイク検出研究が話者の発話操作を対象としている一方で、実際のインタラクティブな攻撃では、リアリティや説得力を高めるために発話と傾聴（リスニング）を切り替える可能性があると主張している。
新たなタスクとしてListening Deepfake Detection（LDD）を提案し、5つのListening Head Generation手法を用いて構築した、傾聴の改ざんに特化した初のデータセットListenForgeを提示する。
傾聴固有のアーティファクトを検出するために、著者らはMANet（Motion-aware and Audio-guided Network）を提案する。これは、話者音声の意味論を用いてクロスモーダル融合を行いながら、視聴者動画における微妙な動きの不整合をモデル化する。
実験結果は、既存の「話者中心」のディープフェイク検出器が傾聴シナリオではうまく汎化できないのに対し、MANetはListenForge上で大幅に良い性能を示すことを明らかにしている。
データセットおよびコードを公開し、インタラクティブなコミュニケーション環境におけるさらなるマルチモーダル改ざん分析を支援する。

要旨: 既存のディープフェイク検出研究は主として、操作対象が積極的に話している状況、すなわち話者の見た目や声を改変することで捏造コンテンツを生成するシナリオに焦点を当ててきました。しかし現実的なインタラクション環境では、攻撃者はしばしば、ターゲットを欺くために「話している状態」と「聞いている状態」を切り替え、その結果としてシナリオの現実味と説得力を高めます。「リスニング・ディープフェイク（listening deepfakes）」の検出は、データセットと手法の双方が乏しいことによって大きく未探索のままですが、合成された聞き取り反応の品質が比較的限られていることは、現在のディープフェイク検出にとって優れたブレークスルーの機会となります。本論文では、Listening Deepfake Detection（LDD）というタスクを提案します。本タスク専用として初めてのデータセットであるListenForgeを導入します。このデータセットは、5つのListening Head Generation（LHG）手法を用いて構築されています。聞き取り偽造の特有の性質に対処するために、MANet（Motion-aware and Audio-guided Network）を提案します。これは、聞き手の動画における微細な運動の不整合を捉えると同時に、話者の音声セマンティクスを活用してクロスモーダル融合を導くネットワークです。大規模な実験により、既存のSpeaking Deepfake Detection（SDD）モデルは聞き取りシナリオでは性能が低いことが示されています。一方で、MANetはListenForge上で大幅に優れた性能を達成します。本研究は、従来の「話し手中心」パラダイムを超えてディープフェイク検出を再考する必要性を示し、インタラクティブなコミュニケーション環境におけるマルチモーダル偽造解析の新たな方向性を切り開きます。データセットとコードは https://anonymous.4open.science/r/LDD-B4CB で公開されています。