DINOv3が専用検出器を上回る:画像フォレンジックのためのシンプルな基盤モデル・ベースライン
arXiv cs.CV / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、DINOv3にLoRA適応と軽量な畳み込みデコーダを組み合わせたシンプルで強力な画像フォレンジックのベースラインを提案し、従来の複雑な手法よりもリアルな偽画像の局在化を堅牢に行うことを目指しています。
- CAT-Netプロトコルでは、最良モデルが凍結したViT-Lバックボーン上で学習可能パラメータ9.1Mのみを使い、4つのベンチマークで画素レベルF1の平均が従来の最先端から17.0点改善したと報告しています。
- データが少ないMVSS-Netプロトコルでは、LoRAが平均F1 0.774を達成し、先行の最強手法(0.530)を上回った一方、全量ファインチューニングは不安定だとされています。
- このベースラインはガウスノイズ、JPEG再圧縮、ガウスぼかしといった一般的な劣化に対しても堅牢であり、再現性のためのコードが公開されています。



