KiToke:動画大規模言語モデルのためのカーネルベース・インターバル対応トークン圧縮

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • KiTokeは、Video Large Language Modelsの推論コストを下げるために、学習なし(training-free)で映像トークンを圧縮する手法を提案している。
  • グローバルなトークン多様性をカーネルベースの冗長性指標で推定し、重要情報を保ったままコンテンツに応じてトークン選択を行う。
  • さらに、軽量な時間的インターバル構築とインターバルを考慮したトークン統合により、時間的な一貫性(temporal coherence)を維持する。
  • 従来のローカル/セグメント単位のヒューリスティックに対して、動画全体のグローバル冗長性を明示的に扱う点が特徴で、極端なトークン予算(保持率1%まで)でも有効とされる。
  • 複数の動画理解ベンチマークとVideo LLMバックボーンで、既存の学習なし圧縮手法より一貫して良い性能を示し、特に厳しい保持比率で大きな改善が報告されている。

Abstract

動画ラージ言語モデル(Video LLMs)は、動画理解タスクにおいて強い性能を発揮しますが、視覚トークン数が多いため推論コストが高いという課題があります。そこで本稿では、訓練不要で、クエリ非依存なトークン圧縮手法であるKiTokeを提案します。この手法は、重要な視覚情報を保持しつつ、時空間的な冗長性を低減します。提案手法では、カーネルベースの冗長性指標を用いてトークンの多様性をグローバルに推定し、極端なトークン予算の下でも有効なコンテンツ適応型の選択を可能にします。さらに、軽量な時間間隔(テンポラル・インターバル)の構築と、区間を意識したトークン統合を導入することで、時間的な整合性(テンポラル・コヒーレンス)を維持します。従来手法がローカルまたはセグメント単位のヒューリスティックに依存していたのに対し、KiTokeは動画全体にわたるグローバルな冗長性を明示的に捉えるため、より効率的なトークン利用が可能になります。複数の動画理解ベンチマークとVideo LLMバックボーンに対する大規模な実験により、KiTokeが既存の訓練不要な圧縮手法を一貫して上回ることが示されます。特に、保持率を1%まで極端に抑えるような条件でも、大幅な改善が見られます。