CoLoRSMamba:教師ありマルチモーダル暴力検出のための条件付きLoRA誘導Mamba

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、CLSに導かれた条件付きLoRAを用いて、VideoMambaエンコーダとAudioMambaモジュールを接続する、方向性付きの動画→音声マルチモーダルアーキテクチャ「CoLoRSMamba」を提案する。これにより、シーンを意識した音声モデリングを行う。
  • トークンレベルのクロスアテンションの代わりに、VideoMambaのCLSトークンがチャンネル単位のモジュレーションと安定化ゲートを生成し、AudioMambaの選択的な状態空間パラメータ(ステップサイズ経路を含む)を適応させる。
  • 学習では、二値の暴力分類と、対称的なAV-InfoNCEコントラスト学習目的を組み合わせて、クリップ単位の音声および動画埋め込みを整合させる。
  • 現実環境に近い条件での公平な評価のために、著者らは時間アノテーションに基づいてNTU-CCTVおよびDVDの音声フィルタ済みのクリップ単位サブセットを作成し、音声が利用可能なクリップのみを保持する。
  • これらのサブセット上で、CoLoRSMambaは改善結果を報告している(NTU-CCTV:88.63%の精度/86.24%のF1-V、DVD:75.77%の精度/72.94%のF1-V)。また、大規模なベースラインに対して強い「精度と効率」のトレードオフを主張している。