DINOv3が専用検出器を上回る:画像フォレンジックのためのシンプルな基盤モデル・ベースライン

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、DINOv3にLoRA適応と軽量な畳み込みデコーダを組み合わせたシンプルで強力な画像フォレンジックのベースラインを提案し、従来の複雑な手法よりもリアルな偽画像の局在化を堅牢に行うことを目指しています。
  • CAT-Netプロトコルでは、最良モデルが凍結したViT-Lバックボーン上で学習可能パラメータ9.1Mのみを使い、4つのベンチマークで画素レベルF1の平均が従来の最先端から17.0点改善したと報告しています。
  • データが少ないMVSS-Netプロトコルでは、LoRAが平均F1 0.774を達成し、先行の最強手法(0.530)を上回った一方、全量ファインチューニングは不安定だとされています。
  • このベースラインはガウスノイズ、JPEG再圧縮、ガウスぼかしといった一般的な劣化に対しても堅牢であり、再現性のためのコードが公開されています。

Abstract

深層生成モデルの急速な進歩により、現実的な偽画像はますます手に入りやすくなっていますが、既存のローカライゼーション手法は複雑な設計に依存しており、操作の種類や撮像条件をまたいで汎化することに依然として苦戦しています。そこで本研究では、DINOv3にLoRA適応と軽量な畳み込みデコーダを組み合わせた、シンプルだが強力なベースラインを提示します。CAT-Netプロトコルのもとで、当社の最良モデルは、固定したViT-Lバックボーンの上に9.1\,Mの学習可能パラメータのみを用いて、4つの標準ベンチマークにおける平均ピクセルレベルF1を先行の最先端手法より17.0ポイント向上させます。さらに、最小のバリアントでさえ、これまでのすべての専用手法を上回ります。LoRAは、あらゆるバックボーンのスケールにおいて、完全微調整よりも一貫して優れた性能を示します。データが乏しいMVSS-Netプロトコルのもとでは、LoRAは平均F1を0.774に到達させ、最も強力な先行手法の0.530を上回ります。一方で完全微調整は非常に不安定になり、事前学習済み表現が、上書きされるよりも保たれた方がよいフォレンジック情報をエンコードしていることを示唆しています。ベースラインはまた、ガウスノイズ、JPEGの再圧縮、ガウスぼかしに対して強い頑健性も示します。本研究が研究コミュニティにとって信頼できるベースラインとして、また将来の画像フォレンジック応用に向けた実用的な出発点として役立つことを期待しています。コードは https://github.com/Irennnne/DINOv3-IML で公開されています。