ビデオLLMは時間をどのように出力すべきか？効率的な時間的グラウンディングのパラダイム分析

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビデオ時間的グラウンディング（VTG）における出力形式――テキスト数値生成、時間トークン生成、連続的時間デコーディング――が、ローカライゼーション精度と計算効率の両方にどのように影響するかを分析する。
SmolVLM2、FastVLM、Molmo2 といった同一のコンパクトVLMバックボーン、整合したデータセット、LoRAによる微調整プロトコルを用いた制御された比較実験を行い、出力設計の影響を切り分ける。
Charades-STA、QVHighlights、YouCook2 での評価によりグラウンディング品質を測定し、あわせて推論レイテンシ、学習スループット、パラメータのオーバーヘッドといったシステムレベルの指標も評価する。
結果は、出力の定式化が、モデル規模とは概ね独立して、効率–精度のトレードオフを大きく変えうることを示している。
連続的時間デコーディングは、最良のパレートフロント性能をもたらすと報告されており、最小限のレイテンシ上乗せで頑健なローカライゼーションを実現し、計算資源の制約があるエッジデバイスへの展開も支援する。

概要: マルチモーダル大規模言語モデル（MLLM）はビデオ時間的グラウンディング（VTG）を進展させてきましたが、既存の手法ではしばしば出力パラダイムが異なるバックボーン、データセット、学習プロトコルと結び付けられています。そのため、出力設計の具体的な影響を切り分けることが困難です。さらに、VTGシステムはリソース制約のあるエッジ環境でのデプロイがますます検討されているため、出力の定式化とシステム全体の効率のトレードオフを体系的に調査する必要があります。本論文では、支配的なVTG出力パラダイムである3つ、すなわち「テキスト数値生成」「時間的トークン生成」「連続的時間デコーディング」を比較する制御された実証研究を提示します。同一のコンパクトVLM（SmolVLM2、FastVLM、Molmo2）に対して、整合したデータセットとLoRAの微調整プロトコルを用いて、これらのパラダイムを評価します。Charades-STA、QVHighlights、YouCook2に対する評価では、ローカライゼーション精度に加えて、推論遅延、学習スループット、パラメータのオーバーヘッドを含むシステム効率も測定します。その結果、出力定式化の選択は、モデル規模とは独立して、グラウンディング精度と計算コストの両方に大きく影響することが示されました。具体的には、連続分布パラダイムが、パレートフロンティア上で一貫して最も有利な「効率−精度」のトレードオフを達成し、最小限の遅延オーバーヘッドで堅牢なローカライゼーションを提供します。これらの知見は、効率的でデプロイ可能なVTGシステムを設計するための客観的な実証的指針を与えるものです。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

ビデオLLMは時間をどのように出力すべきか？効率的な時間的グラウンディングのパラダイム分析

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化