動画コピー検出のための効率的なロジックゲートネットワーク

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、さまざまな視覚的歪みに対して頑健に類似度推定を行いつつ、大規模運用における計算量とメモリ制約を満たすことを目的に、動画コピー検出を扱います。
通常の浮動小数点特徴抽出器の代わりに、コンパクトなロジックベース表現を用いる微分可能ロジックゲートネットワーク（LGN）による枠組みを提案します。
提案手法は、フレームのミニチュア化とバイナリ前処理に加え、論理演算と相互接続を学習する学習可能なLGN埋め込みモデルを組み合わせています。
学習後にモデルを純粋なブール回路へ離散化できるため、高速かつ省メモリの推論が可能で、毎秒11k超のサンプル処理速度と、記述子サイズが数桁小さいことが報告されています。
類似度戦略、バイナリ化方式、LGNアーキテクチャを系統的に比較した実験の結果、複数データセットや難易度で、従来手法に対して同等以上の精度・ランキング性能を示しています。

Abstract

動画のコピー検出では、多様な視覚的歪みに対して頑健な類似度推定を行う必要があり、さらに非常に大規模なスケールで動作しなければなりません。深層ニューラルネットワークは強力な性能を達成していますが、計算コストや記述子（デスクリプタ）のサイズが、高スループットなシステムでの実運用を制限します。本研究では、従来の浮動小数点特徴抽出器をコンパクトな論理ベース表現で置き換える、微分可能ロジックゲートネットワーク（LGN）に基づく動画コピー検出フレームワークを提案します。提案手法は、過度なフレームのミニチュア化、バイナリ前処理、そして論理演算と相互接続の両方を学習する学習可能なLGN埋め込みモデルを組み合わせます。学習後、モデルは純粋にブール（Boolean）な回路へと離散化でき、非常に高速かつメモリ効率の高い推論を可能にします。複数のデータセットのフォールドと難易度レベルにわたって、さまざまな類似度戦略、バイナリ化方式、LGNアーキテクチャを体系的に評価します。実験結果は、LGNベースのモデルが、従来モデルと比較して競争力のある、あるいはより優れた精度およびランキング性能を達成すること、また記述子が数桁にわたって小さくなり、推論速度が毎秒11kサンプルを超えることを示しています。これらの結果は、論理ベースのモデルが、スケーラブルでリソース効率の高い動画コピー検出に向けた有望な代替手段であることを示唆しています。