視覚メモリ機構によるマルチモーダル大規模言語モデルの長尺動画理解のスケーリング
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、典型的な入力長の制限を超えて、マルチモーダル大規模言語モデル(MLLMs)の長尺動画理解を改善するための、学習不要(training-free)の視覚メモリ機構であるFlexMemを提案する。
- FlexMemは、視覚KVキャッシュをメモリソースとして扱い、文脈となる動画が成長するにつれて効率的なメモリ転送と書き込みを可能にするデュアル経路(dual-pathway)圧縮設計を用いる。
- 動画理解タスクの種類に合わせた複数のメモリ読み出し戦略、ストリーミング型のシナリオを含むものを検討する。
- 2つの動画MLLMと、5つの長尺動画データセットおよび1つのストリーミングデータセットで実験を行い、既存の効率的手法に比べて大幅な向上を示す。さらに、単一のRTX 3090 GPU上で1,000フレーム超の処理が可能である。
- このアプローチは基盤MLLMを強化することもでき、いくつかのタスクにおいて(GPT-4oやGemini-1.5 Proなど)最新の専有モデルに匹敵、あるいはそれを上回るベンチマーク性能を達成できる。




