視覚メモリ機構によるマルチモーダル大規模言語モデルの長尺動画理解のスケーリング

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、典型的な入力長の制限を超えて、マルチモーダル大規模言語モデル（MLLMs）の長尺動画理解を改善するための、学習不要（training-free）の視覚メモリ機構であるFlexMemを提案する。
FlexMemは、視覚KVキャッシュをメモリソースとして扱い、文脈となる動画が成長するにつれて効率的なメモリ転送と書き込みを可能にするデュアル経路（dual-pathway）圧縮設計を用いる。
動画理解タスクの種類に合わせた複数のメモリ読み出し戦略、ストリーミング型のシナリオを含むものを検討する。
2つの動画MLLMと、5つの長尺動画データセットおよび1つのストリーミングデータセットで実験を行い、既存の効率的手法に比べて大幅な向上を示す。さらに、単一のRTX 3090 GPU上で1,000フレーム超の処理が可能である。
このアプローチは基盤MLLMを強化することもでき、いくつかのタスクにおいて（GPT-4oやGemini-1.5 Proなど）最新の専有モデルに匹敵、あるいはそれを上回るベンチマーク性能を達成できる。

Abstract

長尺動画の理解は、 \emph{マルチモーダル大規模言語モデル}（MLLMs）の進展を阻む主要な課題です。本論文では、この問題を視覚メモリ機構の観点から研究し、新規かつ学習不要の手法である\emph{Flexible Memory}（\textbf{FlexMem}）を提案します。原理的に、FlexMemは、人が動画視聴を行う際の行動、すなわち\emph{継続的に動画コンテンツを見ながら、質問に答えるために最も関連性の高いメモリ断片を想起する}という振る舞いを模倣することを目指します。これにより、FlexMemは、すべての動画情報を一度に処理し入力上限を持つ従来手法とは異なり、MLLMが無限長の動画理解を達成するのを支援できます。具体的には、FlexMemはまず、視覚KVキャッシュをメモリソースとして考え、デュアル経路の圧縮設計によって効果的なメモリ転送と書き込みを実現します。その後、FlexMemは、人気のストリーミング型を含む、多様な動画理解タスクに対して異なるメモリ読み取り戦略も検討します。FlexMemを検証するために、これを2つの人気の動画-MLLMに適用し、長尺動画タスク5件とストリーミング動画タスク1件に対して大規模な実験を行います。実験結果により、\textbf{単一の3090 GPU}上で、当社のFlexMemは既存の効率的な動画理解手法よりも明確な改善を達成し、さらに\textbf{1kフレーム}を超えて処理できることが示されます。これはまた、いくつかのベンチマークにおいて、ベースとなるMLLMがSOTAのMLLMと同等、あるいはそれ以上の性能を\emph{例えば}、GPT-4oやGemini-1.5 Proで達成するのにも役立ちます。