ActivityForensics:動画における改変された活動(アクティビティ)のローカライズを行うための包括的ベンチマーク

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、顔のスワップや物体の削除のような見た目のみの改変ではなく、活動(アクティビティ)レベルの操作に対する時間的な改ざんローカライズに焦点を当てた、新しい大規模ベンチマーク「ActivityForensics」を提案する。
  • ActivityForensicsは、強い視覚的整合性を維持したまま自然に接合された、6K+の改ざん動画セグメントを含んでおり、人間が真正の映像と見分けることを困難にしている。
  • 著者らは、局所化のための微細なアーティファクトの手がかりを明らかにする拡散ベースの特徴正則化を用いるベースライン手法「Temporal Artifact Diffuser(TADiff)」を提案する。
  • 彼らは、イントラドメイン、クロスドメイン、オープンワールドの各設定にまたがる包括的な評価プロトコルを定義し、複数の最先端の改ざんローカライズ手法をベンチマークする。
  • データセットおよびコードは公開されており、動画内の改変された人間の活動を検出する将来の研究を支援し、加速することを目的としている。

要旨: 時間的偽造ローカライゼーションは、動画内で操作された区間を時間的に特定することを目的としています。既存のほとんどのベンチマークは、顔の入れ替えや物体の除去のような外観レベルの偽造に焦点を当てています。しかし、近年の動画生成の進歩により、人の行動を改変して出来事の意味論を歪める、活動(アクティビティ)レベルの偽造が登場するようになりました。これにより、メディアの信頼性と公衆の信頼を決定的に損なう、非常に欺瞞的な偽造が生み出されています。この問題を克服するために、本研究では、動画における操作された活動をローカライズするための最初の大規模ベンチマークである ActivityForensics を導入します。本ベンチマークには、動画コンテキストにシームレスにブレンドされた 6K 超の偽造動画セグメントが含まれており、人間の目には本物のコンテンツとほとんど見分けがつかないほどの高い視覚一貫性を実現しています。さらに、拡散ベースの特徴正則化によってアーティファクト(痕跡)に関する手がかりを顕在化させる、シンプルでありながら効果的なベースラインである Temporal Artifact Diffuser(TADiff)を提案します。ActivityForensics に基づき、ドメイン内・ドメイン間・オープンワールドの各設定をカバーする包括的な評価プロトコルを導入し、将来の研究を促進するために幅広い最先端の偽造ローカライザをベンチマーク化します。データセットとコードは https://activityforensics.github.io で利用可能です。