ABMAMBA：効率的なビデオキャプションのための整合された階層的双方向スキャンを備えたマルチモーダル大規模言語モデル

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、長い時間系列に対する効率的なビデオキャプション生成に特化した、完全オープンなマルチモーダル大規模言語モデル「ABMamba」を提案する。
トランスフォーマーの注意機構に内在する計算量の二次的ボトルネックに取り組み、言語バックボーンとしてDeep State Space Modelsを用い、注意機構に代わる線形計算量の手法を採用する。
ABMambaの主要な革新は、「整合された階層的双方向スキャン」モジュールであり、複数の時間解像度でビデオ情報を処理することで、時間的依存関係の捉えを改善する。
VATEXやMSR-VTTなどのベンチマークにおいて、本モデルは典型的なMLLMに対して競争力のあるキャプション品質を達成しつつ、スループットを約3倍向上させる。
全体として、本研究は、ベンチマーク性能を大きく損なうことなく計算コストを削減することで、ビデオ理解ワークロードのスケーラビリティを目指している。