シンクトークンを考慮した、効率的なビデオLLMにおけるきめ細かな動画理解のためのプルーニング

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文は、学習不要の視覚トークンプルーニングがVideo LLMの推論コストを下げられる一方で、既存手法は精密な視覚的グラウンディングを要する微細理解タスクではうまく機能せず、性能が大きく崩れると指摘します。
著者らは、意味的に有用ではないのに過剰に注意を引きつける「シンクトークン」が、プルーニングによる破綻の主要因だと明らかにします。
その洞察にもとづき、Sink-Token-aware Pruning（SToP）を提案し、各トークンにシンクスコアを与えて、シンクとして振る舞いやすいトークンを抑制することで既存の空間・時間プルーニングへ反映します。
実験では、幻覚評価、オープンエンド生成、合成的推論、MCQAなど多様なベンチマークでSToPが性能を大きく改善し、視覚トークンを最大90%まで削っても効果が保たれることを示しています。
SToPは既存の最先端プルーニング手法（VisionZip、FastVid、Holitom）に適用されており、再学習なしで効率的なVideo LLMパイプラインに統合できる可能性を示唆しています。