ビデオLLMは時間をどのように出力すべきか?効率的な時間的グラウンディングのパラダイム分析

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビデオ時間的グラウンディング(VTG)における出力形式――テキスト数値生成、時間トークン生成、連続的時間デコーディング――が、ローカライゼーション精度と計算効率の両方にどのように影響するかを分析する。
  • SmolVLM2、FastVLM、Molmo2 といった同一のコンパクトVLMバックボーン、整合したデータセット、LoRAによる微調整プロトコルを用いた制御された比較実験を行い、出力設計の影響を切り分ける。
  • Charades-STA、QVHighlights、YouCook2 での評価によりグラウンディング品質を測定し、あわせて推論レイテンシ、学習スループット、パラメータのオーバーヘッドといったシステムレベルの指標も評価する。
  • 結果は、出力の定式化が、モデル規模とは概ね独立して、効率–精度のトレードオフを大きく変えうることを示している。
  • 連続的時間デコーディングは、最良のパレートフロント性能をもたらすと報告されており、最小限のレイテンシ上乗せで頑健なローカライゼーションを実現し、計算資源の制約があるエッジデバイスへの展開も支援する。

概要: マルチモーダル大規模言語モデル(MLLM)はビデオ時間的グラウンディング(VTG)を進展させてきましたが、既存の手法ではしばしば出力パラダイムが異なるバックボーン、データセット、学習プロトコルと結び付けられています。そのため、出力設計の具体的な影響を切り分けることが困難です。さらに、VTGシステムはリソース制約のあるエッジ環境でのデプロイがますます検討されているため、出力の定式化とシステム全体の効率のトレードオフを体系的に調査する必要があります。本論文では、支配的なVTG出力パラダイムである3つ、すなわち「テキスト数値生成」「時間的トークン生成」「連続的時間デコーディング」を比較する制御された実証研究を提示します。同一のコンパクトVLM(SmolVLM2、FastVLM、Molmo2)に対して、整合したデータセットとLoRAの微調整プロトコルを用いて、これらのパラダイムを評価します。Charades-STA、QVHighlights、YouCook2に対する評価では、ローカライゼーション精度に加えて、推論遅延、学習スループット、パラメータのオーバーヘッドを含むシステム効率も測定します。その結果、出力定式化の選択は、モデル規模とは独立して、グラウンディング精度と計算コストの両方に大きく影響することが示されました。具体的には、連続分布パラダイムが、パレートフロンティア上で一貫して最も有利な「効率−精度」のトレードオフを達成し、最小限の遅延オーバーヘッドで堅牢なローカライゼーションを提供します。これらの知見は、効率的でデプロイ可能なVTGシステムを設計するための客観的な実証的指針を与えるものです。