MLE-UVAD:完全教師なし動画異常検出のための最小潜在エントロピーオートエンコーダ(Minimal Latent Entropy Autoencoder)

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一シーンの完全教師なし動画異常検出のための手法MLE-UVADを提案し、ラベルなしで、正常イベントと異常イベントの両方を含む動画に対して学習およびテストを行う。
  • 標準的な再構成損失に加えて、正常な内容の潜在埋め込みが高密度領域に集中するよう促すMinimal Latent Entropy(MLE)損失を組み合わせた、エントロピー誘導型オートエンコーダを用いる。
  • 本手法は、明確な再構成ギャップを作ることを目的としており、正常フレームはよく再構成される一方で、学習中に出現していても異常はうまく再構成されないよう設計されている。
  • MLE損失を追加することで、再構成損失のみの場合に異常を過度にうまく再構成してしまい、正常・異常の潜在表現の区別が曖昧になるリスクを低減する。
  • 2つの公開ベンチマークに加えて、自作の運転(ドライビング)データセットで実験を行い、先行手法のベースラインと比べて頑健かつ優れた性能を示す。

要旨: 本論文では、単一シーンにおける、完全に教師なしの動画異常検知(VAD)という困難な問題に取り組みます。ここでは、正常および異常の両方の事象を含む生の動画を、ラベルなしでそのまま学習と評価に用います。これは、従来研究とは大きく異なり、従来は大規模なラベル付け(完全または弱教師あり)を必要とするか、あるいは正常のみの動画に依存する(二クラスの一クラス分類)ため、分布シフトや汚染に脆弱です。本研究では、エントロピーに導かれた自己符号化器(オートエンコーダ)を提案します。これは、正常フレームをうまく再構成する一方で、異常をうまく再構成しないようにすることで、再構成誤差により異常を検出します。主要なアイデアは、自己符号化器において標準的な再構成損失と、新規の最小潜在エントロピー(Minimal Latent Entropy: MLE)損失を組み合わせることです。再構成損失だけでも、入力の本質的な違いにより、正常入力と異常入力を異なる潜在クラスタへマッピングできますが、異常を過度にうまく再構成してしまうリスクもあります。そこでMLE損失がこの問題を解決し、潜在埋め込みのエントロピーを最小化することで、それらが高密度領域に集中するよう促します。生動画では正常フレームが支配的であるため、まばらな異常の埋め込みは正常クラスタへ引き寄せられ、その結果デコーダは正常パターンを強調し、異常に対しては再構成が不十分になります。この二重損失の設計により、異常検知を可能にする明確な再構成ギャップが得られます。広く用いられている2つのベンチマークおよび、困難な自己収集のドライビングデータセットに対する大規模な実験により、本手法がベースラインを上回る頑健で優れた性能を達成することを示します。