要旨: 過去1年間で、動画ベースの大規模言語モデル(Video LLMs)は目覚ましい進歩を遂げており、とりわけ極めて長いコンテキスト長によって長い動画を処理できる能力が顕著です。 しかしその一方で、大量の視覚トークンによる計算オーバーヘッドの大幅な増加を伴うため、効率が主要なボトルネックとなっています。本論文では、この非効率性の根本原因を動画コンテンツにおける高い冗長性にあることを突き止めます。これに対処するため、指示に関連する視覚的意味を保持しつつ、積極的なトークン圧縮を可能にする新しいプーリング戦略を提案します。私たちのモデルである Prompt-guided Pooling LLaVA(PPLLaVA)は、3つの主要コンポーネントを導入します。すなわち、ユーザの指示に基づいて注目領域を特定するCLIPベースの視覚プロンプト整合モジュール、畳み込みスタイルのプーリングを用いて視覚シーケンスを適応的に圧縮するプロンプト誘導型プーリング機構、そして視覚対話における長く複雑なプロンプトの処理に特化したクリップ文脈拡張モジュールです。最大18倍のトークン削減を達成し、PPLLaVAはタスク全般で強い性能を維持し、画像から動画へのタスクであるキャプション生成やQAから、長文の動画推論まで、幅広い動画理解ベンチマークにおいて最先端の結果を実現しています。さらに、推論スループットを大幅に改善しています。コードは https://github.com/farewellthree/PPLLaVA で公開されています。
PPLLaVA:プロンプト誘導による多様なビデオ系列の理解
arXiv cs.CV / 2026/5/4
💬 オピニオンModels & Research
要点
- この論文は、近年のVideo LLMの非効率性の根本原因を、動画内における冗長性の高さにあると特定しており、その結果として視覚トークン数が増えて計算コストが膨らむと述べています。
- 提案手法Prompt-guided Pooling LLaVA(PPLLaVA)は、命令(ユーザーの指示)に関連する視覚的意味を保ちながら、視覚トークンを積極的に圧縮します。
- PPLLaVAには、CLIPベースの視覚・プロンプト整合モジュール(指示に基づき関心領域を特定)、畳み込み風のプーリングを用いるプロンプト誘導型プーリング機構、さらに長く複雑なビジュアル対話を扱うためのclipコンテキスト拡張モジュールが含まれます。
- 実験では最大18倍のトークン削減と性能維持が示され、字幕生成やQA、長文の動画推論といった多様な動画理解ベンチマークで高い性能(SOTA)を達成します。
- 推論スループットが大幅に向上したと報告されており、コードもGitHubで公開されています。




