FrameMoggingによるVLMaxxing:動画ビジョン言語モデルのための学習不要な反再計算手法
arXiv cs.CV / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、学習不要の「反再計算(anti-recomputation)」として、妥当性が保たれている場合は状態を再利用し、必要な場合だけ新しい根拠を再取得することで、動画VLMにおける冗長な視覚処理を回避する手法を提案している。
- 実験では、同一動画に対するフォローアップ質問で大きな遅延削減が示されており、凍結したQwen2.5-VL-7B-Instruct-4bit環境で適応的な状態再利用により、追質問のレイテンシーが約14.90〜35.92×削減され、93問のVideoMME(幅)設定でも正しさを維持した。
- さらに「fresh-video pruning」(例:C-VISION)として、最初の回答が生成される前に不要な視覚タワー計算をスキップする仕組みも含まれ、Gemma 4-E4B-4bitで約1.316×の初回速度向上など、小さいながらも実効のある改善が報告されている。
- 「C-CEILING」という会計上のガードレールにより、部品レベルの高速化がエンドツーエンドの高速化につながるのは、加速されるウォールクロック時間の割合に比例する場合に限られるため、モジュール間での見かけ上の“掛け算”的な過大評価を防いでいる。
- 著者らは、変化・運動・不確実性・物体状態・センサー時刻・アクティブ領域といった情報を直接扱えるようにVLMネイティブなメディア表現へ移行することを主張し、各時点で密なRGBから毎回世界を再発見する必要を減らすべきだとしている。




