MSCT：ディープフェイク検出のための差分クロスモーダル注意

arXiv cs.CV / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モダリティをまたいで改ざん痕跡をより適切に抽出することで、音声・映像によるディープフェイク検出を改善することを目的としたマルチスケール・クロスモーダル・トランスフォーマーエンコーダであるMSCTを提案する。
隣接する埋め込みを統合するマルチスケール・セルフアテンションと、音声と映像の特徴をより効果的に融合するための差分クロスモーダル注意を導入することで、従来手法の課題に対処する。
本手法は、特徴抽出の不足や音声と映像間のモーダル整合のずれといった、アライメントベース検出器に共通する失敗モードを対象とする。
FakeAVCelebデータセットでの実験により、提案アーキテクチャの有効性を裏づける競争力のある性能が示される。

要旨: 音声・映像のディープフェイク検出では通常、動画内の改ざん痕跡を確認するために、補完的なマルチモーダルモデルを用いる。これらの手法は主に、音声モダリティと映像モダリティの不一致によって生じる音声・映像のアラインメントを通じて改ざん痕跡を抽出する。しかし、従来のマルチモーダル改ざん検出手法には、特徴抽出が不十分であり、かつモダリティ間アラインメントが逸脱するという問題がある。これに対処するため、我々はディープフェイク検出のためのマルチスケール・クロスモーダル・トランスフォーマーエンコーダ（MSCT）を提案する。我々の手法には、隣接する埋め込みの特徴を統合するためのマルチスケール自己注意と、マルチモーダル特徴を融合するための差分（ディファレンシャル）クロスモーダル注意が含まれる。実験の結果、FakeAVCelebデータセットにおいて競争力のある性能が示され、提案構造の有効性が検証された。

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to

MSCT：ディープフェイク検出のための差分クロスモーダル注意

要点

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール