CoLoRSMamba：教師ありマルチモーダル暴力検出のための条件付きLoRA誘導Mamba

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、CLSに導かれた条件付きLoRAを用いて、VideoMambaエンコーダとAudioMambaモジュールを接続する、方向性付きの動画→音声マルチモーダルアーキテクチャ「CoLoRSMamba」を提案する。これにより、シーンを意識した音声モデリングを行う。
トークンレベルのクロスアテンションの代わりに、VideoMambaのCLSトークンがチャンネル単位のモジュレーションと安定化ゲートを生成し、AudioMambaの選択的な状態空間パラメータ（ステップサイズ経路を含む）を適応させる。
学習では、二値の暴力分類と、対称的なAV-InfoNCEコントラスト学習目的を組み合わせて、クリップ単位の音声および動画埋め込みを整合させる。
現実環境に近い条件での公平な評価のために、著者らは時間アノテーションに基づいてNTU-CCTVおよびDVDの音声フィルタ済みのクリップ単位サブセットを作成し、音声が利用可能なクリップのみを保持する。
これらのサブセット上で、CoLoRSMambaは改善結果を報告している（NTU-CCTV：88.63%の精度／86.24%のF1-V、DVD：75.77%の精度／72.94%のF1-V）。また、大規模なベースラインに対して強い「精度と効率」のトレードオフを主張している。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH