エネルギー・ベース制約ネットワーク：モダリティ横断での構造的整合性の学習

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、コントラスト対を用いてモダリティ非依存に構造的整合性を学習するエネルギー・ベースの制約ネットワークを提案し、全体のエネルギースコアに加えて違反箇所を1位置ずつ特定するスコアを出力します。
凍結した事前学習エンコーダ（テキストはBERT、ビジョンはDINOv2）を用い、エネルギー/状態空間＋デュアルヘッド注意の枠組みに対して少数のパラメータのみを学習することで、同一アーキテクチャをテキストと画像の両方に適用します。
テキストの破損（corruption）検出では学習済み破損に93.4%、9つの未見の破損に87.2%を達成し、Celeb-DFの学習データを使わずにディープフェイク検出でも競争力のある性能（FaceForensics++ DeepfakesでAUC 0.959、Celeb-DFでAUC 0.870）を示します。
複数の独立したブランチが異なる違反タイプを検出し、推論時に組み合わせ可能ですが、そのためには表現の互換性が必要であり、著者らは非互換な設計で多数の失敗があったことを報告しています。
本フレームワークは柔軟で再利用可能で、ドメイン変更は主に新しい破損戦略の追加で対応し、エンコーダ変更は入力投影層の差し替えで行えるため、「破損の再定義」によってモダリティ横断転移が可能になります。

要旨: 本稿では、エネルギーベースの制約ネットワーク――対モダリティに依存しないアーキテクチャ――を導入します。このアーキテクチャは、コントラスティブなペアから構造的な整合性を学習します。システムは、状態空間モデルとデュアルヘッドの注意機構によって凍結したエンコーダ埋め込みを処理し、構造の一貫性を測るスカラーのエネルギーと、違反箇所を局所化する位置ごとのエネルギースコアを生成します。独立して学習された複数の枝（ブランチ）が異なる違反タイプを検出し、推論時には干渉することなく合成します。
本フレームワークを2つの領域で示します。テキストでは、学習済みの破損（コラプション）タイプに対して93.4%の精度、9つの未見タイプに対して87.2%の精度を達成します。ここでは、凍結したBERTと、訓練可能パラメータ740万（7.4M）を使用します。視覚では、同じアーキテクチャが競争力のあるディープフェイク検出を実現します。FaceForensics++ のDeepfakesでAUCが0.959、Celeb-DFで0.870です。いずれもCeleb-DFの訓練データを一切用いず、凍結したDINOv2と、ブランチごとに360万（3.6M）パラメータを用いています。
本フレームワークは柔軟な学習をサポートします。すなわち、設計者が指定した破損から学習すること、実世界のペアデータから学習すること、または両方から学習することが可能です。合成可能な枝には、表現（レプレゼンテーション）の互換性が必要です――この知見は、大規模な実験を通じて検証されました。互換性のない5つのアプローチは失敗し、互換性のあるものが成功しました。アーキテクチャはエンコーダに非依存であり、ドメインにも非依存です。ドメインを変えるには、新しい破損戦略を用意するだけで済みます。エンコーダを変えるには、新しい入力射影（プロジェクション）層を用意するだけで済みます。我々の知る限り、各位置への分解を伴う明示的なエネルギー地形（エネルギー・ランドスケープ）として、モダリティ内の構造的整合性を学習する最初のアーキテクチャであり、さらに破損の再指定（コラプション・レスペシフィケーション）だけで、同じアーキテクチャがモダリティを越えて転移できることを示した初めてのものです。