HieraVid: 高速なビデオ大規模言語モデルのための階層的トークン削減

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大量の入力トークン数によって生じるVideoLLMの重い計算コストを削減することを目的とした、階層的かつ動的なトークン削減フレームワーク「HieraVid」を提案する。
HieraVidは、想定されるビデオのセグメント・フレーム構造と、LLMにおけるマルチモーダル情報の一方向的な伝播を活用して、3つのレベルで削減を行う：セグメントレベルでの時間的/空間的マージ、セグメント内でのフレームレベルの共同削減、そして層レベルでの段階的な冗長性低減。
4つの標準的なビデオ理解ベンチマークでの実験により、HieraVidはトークンの30%のみを保持しながら、新たな最先端性能を達成できることが示される。
本手法は、強い削減を行ってもベースラインの品質を大部分維持し、それぞれLLaVA-Video-7BおよびLLaVA-OneVision-7Bに対して性能比で98%以上、99%以上を保つ。
全体として、本研究は、ビデオ入力の階層構造とモデル内部の情報伝播の流れを活用することで、大きな精度低下を伴わずに高速なVideoLLMの展開が可能になることを示唆している。