要旨: 大規模ビデオモデルにおける最近の進歩は、防犯監視、医療、エンターテインメントといった領域でのビデオ理解を大きく向上させてきました。 しかし、これらのモデルは、顔の同一性、人種、性別といった機微な属性を符号化することで、プライバシーリスクも同時に増幅します。 画像の匿名化は広く研究されている一方で、ビデオの匿名化は比較的未開拓のままです。 それでも、現代のビデオモデルは、生体識別子として機能し得る時空間の動きパターンを活用できます。 この課題に対処するために、ユーティリティ特徴とプライバシー特徴を体系的に分解(disentanglement)することに基づく、新しい注意駆動型 時空間ビデオ匿名化フレームワークを提案します。 本研究の重要な洞察は、Vision Transformers(ViT)における注意(attention)機構を明示的に構造化することで、行動に関連する情報からプライバシーに敏感な内容を分離できるという点です。 この洞察に基づき、共有のTransformerバックボーン内で補完的な表現を学習する、2つのタスク固有の分類トークン、すなわち行動CLSトークンとプライバシーCLSトークンを導入します。 そして、それらの注意分布を対比させることで、各時空間チューブレットに対するユーティリティ—プライバシースコアを計算し、最も高いスコアを持つ上位k個のチューブレットを保持します。 これにより、プライバシーの手掛かりによって支配されるチューブレットを選択的に剪定(pruning)しつつ、行動認識にとって最も重要なものを維持します。 大規模な実験により、この手法が、生ビデオで訓練したモデルと同等の行動認識性能を維持しながら、プライバシー漏えいを大幅に低減できることを示します。 これらの結果は、注意駆動型の時空間剪定が、プライバシーを保護するためのビデオ解析に対して有効で、かつ原理に基づく解決策を提供できることを示唆しています。
ピクセルからプライバシーへ:トークン削減による時間的に一貫したプライバシー保護アクション認識のための動画匿名化
arXiv cs.CV / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模な最新動画モデルが機密属性(例:顔の身元、レース、性別)を符号化し得ることによるプライバシー漏えいに着目した、注意(attention)駆動の時空間動画匿名化手法を提案する。
- Vision Transformer(ViT)をバックボーンとして用い、アクションに関連する特徴とプライバシーに敏感なコンテンツを切り分けるために2つの分類トークン――アクションクラス(action CLS)トークンとプライバシークラス(privacy CLS)トークン――を使用する。
- これらのトークンに対する注意分布を対比することで、時空間チューレットごとにユーティリティ–プライバシースコアを算出し、プライバシーの手がかりに支配されているチューレットをtop-k選択によりプルーニングする。
- 実験では、アクション認識精度が生動画で学習した場合と同等に保たれる一方で、プライバシー漏えいが大幅に低減されることが報告されており、本アプローチがプライバシー保護型の動画解析に有効であることを示唆している。
