KiToke:動画大規模言語モデルのためのカーネルベース・インターバル対応トークン圧縮
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- KiTokeは、Video Large Language Modelsの推論コストを下げるために、学習なし(training-free)で映像トークンを圧縮する手法を提案している。
- グローバルなトークン多様性をカーネルベースの冗長性指標で推定し、重要情報を保ったままコンテンツに応じてトークン選択を行う。
- さらに、軽量な時間的インターバル構築とインターバルを考慮したトークン統合により、時間的な一貫性(temporal coherence)を維持する。
- 従来のローカル/セグメント単位のヒューリスティックに対して、動画全体のグローバル冗長性を明示的に扱う点が特徴で、極端なトークン予算(保持率1%まで)でも有効とされる。
- 複数の動画理解ベンチマークとVideo LLMバックボーンで、既存の学習なし圧縮手法より一貫して良い性能を示し、特に厳しい保持比率で大きな改善が報告されている。


