CoLoRSMamba:教師ありマルチモーダル暴力検出のための条件付きLoRA誘導Mamba
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、CLSに導かれた条件付きLoRAを用いて、VideoMambaエンコーダとAudioMambaモジュールを接続する、方向性付きの動画→音声マルチモーダルアーキテクチャ「CoLoRSMamba」を提案する。これにより、シーンを意識した音声モデリングを行う。
- トークンレベルのクロスアテンションの代わりに、VideoMambaのCLSトークンがチャンネル単位のモジュレーションと安定化ゲートを生成し、AudioMambaの選択的な状態空間パラメータ(ステップサイズ経路を含む)を適応させる。
- 学習では、二値の暴力分類と、対称的なAV-InfoNCEコントラスト学習目的を組み合わせて、クリップ単位の音声および動画埋め込みを整合させる。
- 現実環境に近い条件での公平な評価のために、著者らは時間アノテーションに基づいてNTU-CCTVおよびDVDの音声フィルタ済みのクリップ単位サブセットを作成し、音声が利用可能なクリップのみを保持する。
- これらのサブセット上で、CoLoRSMambaは改善結果を報告している(NTU-CCTV:88.63%の精度/86.24%のF1-V、DVD:75.77%の精度/72.94%のF1-V)。また、大規模なベースラインに対して強い「精度と効率」のトレードオフを主張している。




