KiToke：動画大規模言語モデルのためのカーネルベース・インターバル対応トークン圧縮

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

KiTokeは、Video Large Language Modelsの推論コストを下げるために、学習なし（training-free）で映像トークンを圧縮する手法を提案している。
グローバルなトークン多様性をカーネルベースの冗長性指標で推定し、重要情報を保ったままコンテンツに応じてトークン選択を行う。
さらに、軽量な時間的インターバル構築とインターバルを考慮したトークン統合により、時間的な一貫性（temporal coherence）を維持する。
従来のローカル／セグメント単位のヒューリスティックに対して、動画全体のグローバル冗長性を明示的に扱う点が特徴で、極端なトークン予算（保持率1%まで）でも有効とされる。
複数の動画理解ベンチマークとVideo LLMバックボーンで、既存の学習なし圧縮手法より一貫して良い性能を示し、特に厳しい保持比率で大きな改善が報告されている。

Abstract

動画ラージ言語モデル（Video LLMs）は、動画理解タスクにおいて強い性能を発揮しますが、視覚トークン数が多いため推論コストが高いという課題があります。そこで本稿では、訓練不要で、クエリ非依存なトークン圧縮手法であるKiTokeを提案します。この手法は、重要な視覚情報を保持しつつ、時空間的な冗長性を低減します。提案手法では、カーネルベースの冗長性指標を用いてトークンの多様性をグローバルに推定し、極端なトークン予算の下でも有効なコンテンツ適応型の選択を可能にします。さらに、軽量な時間間隔（テンポラル・インターバル）の構築と、区間を意識したトークン統合を導入することで、時間的な整合性（テンポラル・コヒーレンス）を維持します。従来手法がローカルまたはセグメント単位のヒューリスティックに依存していたのに対し、KiTokeは動画全体にわたるグローバルな冗長性を明示的に捉えるため、より効率的なトークン利用が可能になります。複数の動画理解ベンチマークとVideo LLMバックボーンに対する大規模な実験により、KiTokeが既存の訓練不要な圧縮手法を一貫して上回ることが示されます。特に、保持率を1%まで極端に抑えるような条件でも、大幅な改善が見られます。