概要: マルチメディアデータ、特に画像や動画は、監視、視覚的インタラクション、バイオメトリクス、証拠の収集、広告など、さまざまなアプリケーションに不可欠です。しかし、素人または熟練した偽造者は、それらをシミュレートしてディープフェイクを生成することができ、しばしば名誉毀損などの目的で悪用されます。この課題に対処するため、コンテンツの真正性を保証するいくつかのフォレンジック手法が開発されてきました。これらの手法の有効性は、それらがどこに焦点を当てるかに依存しており、操作の多様性によって課題が生じます。本記事では、既存のフォレンジック手法を分析し、各手法がフレーム、顔、唇、目、鼻といった特定の顔領域に着目することで、ディープフェイク痕跡の検出における固有の強みを持つことを観察します。これらの知見を踏まえ、階層的特徴表現(HFR)に基づく新しいハイブリッド手法であるFace2Partsを提案し、粗い情報から細かな情報へという考え方を活用してディープフェイク検出を改善します。提案手法では、フレーム、顔、主要な顔領域(すなわち唇、目、鼻)からそれぞれ特徴を抽出し、粗いから細かな関係を探索します。このアプローチにより、チャネル注意機構と深いトリプレット学習を用いて、顔領域間の相互依存関係を捉えることができます。提案手法を、イントラデータセット、インターデータセット、インターマニピュレーションの各設定におけるベンチマークのディープフェイクデータセットで評価しました。提案手法は、FF++で平均AUC 98.42
al、CDF1で79.80
al、CDF2で85.34
al、DFDで89.41
al、DFDCで84.07
al、DTIMで95.62
al、PDDで80.76
al、WLDRで100
alをそれぞれ達成します。これらの結果は、我々のアプローチが効果的に汎化でき、既存手法を上回る有望な性能を達成していることを示しています。
Face2Parts:一般化されたディープフェイク検出のための粗視度から微視度への領域間の顔面依存関係の探索
arXiv cs.CV / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、フレーム全体、顔、主要な顔領域(唇、目、鼻)からそれぞれ階層的特徴を抽出する粗視度から微視度へのハイブリッド型ディープフェイク検出手法「Face2Parts」を提案する。
- チャネル注意機構とディープ・トリプレット学習を組み合わせることで、操作(改変)が顔の各パーツ間の関係性をどのように変えるかをより適切に捉えるために、領域間の顔面依存関係をモデル化する。
- 複数のベンチマーク・ディープフェイク・データセットで実験を行い、同一データセット内、データセット間、および操作(マニピュレーション)間の一般化性能を評価する。
- Face2Partsはデータセット間で強いAUC結果を報告しており(例:FF++で98.42%、DFDで89.41%、DTIMで95.62%)、既存のフォレンジック手法に比べて性能が向上したと主張している。



