要旨: CLIPのような視覚-言語モデル(VLM)が、汎用的なディープフェイク検出の支配的なパラダイムとして登場してきた一方で、表現上の断絶が依然として残っています。すなわち、それらの意味中心の事前学習は、超現実的な合成に固有に存在する非意味的アーティファクトを捉えるのに不適切です。本研究では、Optimization Collapse(最適化崩壊)と呼ぶ失敗モードを特定します。これは、Sharpness-Aware Minimization(SAM)で学習した検出器が、摂動半径が狭い閾値を超えると、非意味的な偽造に対してランダムな当て推量へと退行するものです。この崩壊を理論的に形式化するために、最適化ランドスケープの幾何学的安定性を定量化するCritical Optimization Radius(COR:臨界最適化半径)を提案し、一般化可能性を測るためにGradient Signal-to-Noise Ratio(GSNR:勾配信号対雑音比)を活用します。CORがGSNRとともに単調増加することを証明する定理を確立し、SAM最適化の幾何学的不安定性が、固有の一般化可能性の低下に由来することを明らかにします。この結果は、非意味的な偽造の検出におけるOptimization Collapseの根本原因が、GSNRの層ごとの減衰であることを示します。摂動半径を単純に小さくすることでSAMにおいて安定した収束は得られるものの、それは症状を扱うだけであり、固有の一般化低下を軽減しません。したがって、勾配の忠実度の向上が必要です。この洞察に基づき、Contrastive Regional Injection Transformer(CoRIT)を提案します。ここでは、計算効率の高いContrastive Gradient Proxy(CGP)に加えて、訓練不要の3つの戦略を統合します。すなわち、CGPの分散を抑制するためのRegion Refinement Mask、CGPの大きさを保つためのRegional Signal Injection、そしてより一般化可能な表現を得るためのHierarchical Representation Integrationです。大規模な実験により、CoRITがOptimization Collapseを緩和し、ドメイン横断およびユニバーサルな偽造ベンチマークにおいて最先端の一般化性能を達成することが示されます。
セマンティック・プライオルを超えて:汎用化可能なビジュアル・フォレンジックのための最適化崩壊の緩和
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、シャープネス・アウェア・ミニマイゼーション(SAM)に基づくビジュアル・フォレンジック検出器における失敗モード「最適化崩壊(Optimization Collapse)」を扱う。具体的には、摂動半径が狭い閾値を超えて大きくなると、非セマンティックなディープフェイクに対する性能がほぼランダムな当て推量まで低下する。
- 最適化風景の幾何学的安定性を形式化するための臨界最適化半径(Critical Optimization Radius, COR)を導入し、さらに固有の汎化可能性を推定するための勾配信号対雑音比(Gradient Signal-to-Noise Ratio, GSNR)を提案する。
- 理論的結果により、CORはGSNRと単調増加の関係にあることが示され、崩壊が摂動サイズそのものに起因するのではなく、層ごとの勾配忠実度の減衰に結びつくことが明らかになる。
- 著者らは、学習を安定化するものの固有の汎化を本質的に解決しないため、単に摂動半径を縮めるだけではなく、「CoRIT」を提案する。CoRITは、コントラスト型の勾配プロキシに加え、領域の精緻化、信号の保持、階層的表現の統合のための学習不要メカニズムを用いる。
- 実験では、CoRITが最適化崩壊を緩和し、クロスドメインおよびユニバーサル・フォージェリ検証ベンチマークにおいて最先端の汎化性能を向上させることが報告されている。