強化学習による効率的な動画理解のためのダイナミック・トークン圧縮

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、固定的なヒューリスティック圧縮ではなく、マルチモーダルLLMによる動画理解のために適応的な動画トークン圧縮ポリシーを学習する枠組みSCORE（Surprise-augmented token COmpression via Reinforcement learning）を提案する。
SCOREは、フレーム間残差を取り入れたサプライズ拡張の状態表現により、時間的ダイナミクスと運動の顕著性をより適切に捉える、軽量なポリシーネットワークを用いる。
学習は、分割アドバンテージ推定器によるグループ単位の強化学習に加え、安定性のために静的な擬似動画から実際の動的動画へ段階的に移行する2段階カリキュラムを用いて行う。
複数の動画理解ベンチマークでの実験により、SCOREは既存の圧縮ベースラインを上回り、トークン保持率10%で約99.5%の性能を維持しつつ、プリフィル速度を16倍向上できることを示す。
本研究は、長尺動画理解における2つの主要課題、すなわち冗長な視覚トークンによる計算コストの高さと、「context rot」（文脈の劣化）による性能低下を対象としている。