FrameMoggingによるVLMaxxing:動画ビジョン言語モデルのための学習不要な反再計算手法

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、学習不要の「反再計算(anti-recomputation)」として、妥当性が保たれている場合は状態を再利用し、必要な場合だけ新しい根拠を再取得することで、動画VLMにおける冗長な視覚処理を回避する手法を提案している。
  • 実験では、同一動画に対するフォローアップ質問で大きな遅延削減が示されており、凍結したQwen2.5-VL-7B-Instruct-4bit環境で適応的な状態再利用により、追質問のレイテンシーが約14.90〜35.92×削減され、93問のVideoMME(幅)設定でも正しさを維持した。
  • さらに「fresh-video pruning」(例:C-VISION)として、最初の回答が生成される前に不要な視覚タワー計算をスキップする仕組みも含まれ、Gemma 4-E4B-4bitで約1.316×の初回速度向上など、小さいながらも実効のある改善が報告されている。
  • 「C-CEILING」という会計上のガードレールにより、部品レベルの高速化がエンドツーエンドの高速化につながるのは、加速されるウォールクロック時間の割合に比例する場合に限られるため、モジュール間での見かけ上の“掛け算”的な過大評価を防いでいる。
  • 著者らは、変化・運動・不確実性・物体状態・センサー時刻・アクティブ領域といった情報を直接扱えるようにVLMネイティブなメディア表現へ移行することを主張し、各時点で密なRGBから毎回世界を再発見する必要を減らすべきだとしている。

Abstract

ビデオの視覚言語モデル(VLM)は、ストリームがすでに安定だと示した視覚状態に対して、いまもなお支払い続けています。工場の壁は動かなかったものの、ほとんどのVLMパイプラインでは、依然としてモデルに密なRGBフレームを渡すか、再び新しいプレフィックスを与えています。私たちはこの無駄を、学習を行わない反再計算(training-free anti-recomputation)として研究します。すなわち、検証がその状態の生存を示す場合は状態を再利用し、シーン、クエリ、またはキャッシュのトポロジーがそれを必要とする場合は新しい根拠を購入します。 測定された最大の利得は取り込み(ingest)の後です。凍結したQwen2.5-VL-7B-Instruct-4bit上で、同一ビデオの適応的なフォローアップ再利用は、VideoMMEの93クエリの幅設定において、対になった選択と正確性を維持しつつ、フォローアップのレイテンシーを14.90-35.92倍削減します。最初のクエリは依然としてコールドです。利得が始まるのは、後続の質問が同じビデオ状態を再利用し始めてからです。ストレステストでも結果が抑え込まれます。繰り返し質問のスケジュールは50ターンを通じて維持される一方で、密な回答にアンカーしたプロンプトのバリエーションは、保守的な固定K=1の修復と、より高速で積極的だが漂流するポリシーとを分離します。 新しいビデオの剪定は小さいものの、実際に効きます。C-VISIONは、最初の回答が生成される前に、時間指定された視覚タワーの処理をスキップします。Gemma 4-E4B-4bitでは、クリーンな32fの短いセルが、20件のアイテムに対して、対になった漂流やパース失敗なしに、最初のクエリ速度を1.316倍に引き上げます。Qwenでは、忠実度と速度の境界が見えます。 ステージ共有の上限(C-CEILING)は会計上のガードレールです。あるコンポーネントの速度向上がエンドツーエンドの速度向上として現れるのは、そのコンポーネントが加速する壁時計時間の共有割合に比例する場合だけです。そのため、C-VISIONと、取り込み後のフォローアップ再利用は掛け算で増幅しません。候補のC-STREAMは、ここではヘッドラインとなる結果ではなく、ネイティブレートの到達目標のままです。より広い方向性は、変化・運動・不確実性・物体状態・センサー時刻・アクティブなタイルを直接公開するVLMネイティブのメディアです。そうすれば、モデルは毎フレームごとに密なRGBから世界を再発見する必要がなくなります。

FrameMoggingによるVLMaxxing:動画ビジョン言語モデルのための学習不要な反再計算手法 | AI Navigate