物理的シグナルに基づくビデオ推論のグラウンディング

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、物理的ビデオ理解は「何が起きたか」を正しく答えるだけでなく、「いつ」「どこで」を時間・空間の両方で正確にグラウンディングできることが重要だと主張している。
V-STaRの what–when–where 評価を、4つの動画データセット、6つの物理領域、3種類のプロンプトファミリ、4種類の入力擾乱条件へ拡張した新しいグラウンディング・ベンチマークを提案している。
ベンチマークでは各クリップを共通のグラウンディングされたイベント記録へ変換し、その記録から（physics, vstar_like, neutral_rstr の）各クエリファミリを生成する仕組みになっている。
実験の結果、物理系プロンプトが全体として最も強く、vstar_likeは非物理領域での意味比較が最も分かりやすく、neutral_rstrはより厳しいテンプレート対照として機能することが示されている。
頑健性は万能ではなく選択的であり、擾乱による改善は弱い「元の」ケースに集中し、空間的グラウンディングが設定全体で最も弱いことが分かった。

要約: 物理的なビデオ理解には、イベントを正しく名前付けするだけでは不十分です。モデルは、テキスト上の規則性に基づいて注ぎ込み・滑走・衝突に関する質問に答えることができる一方で、それでもなお、時間的または空間的にイベントを局在化できないことがあります。本研究では、V-STaRの「何を--いつ--どこで（what--when--where）」の評価構造を4つのビデオソース、6つの物理領域、3つのプロンプトファミリ（physics、vstar_like、neutral_rstr）、および4つの入力条件（original、shuffled、ablated、frame-masked）へ拡張する、物理ベースのビデオ理解のためのグラウンデッド・ベンチマークを導入します。このベンチマークには、SSV2、YouCook2、HoloAssist、Roundabout-TAUから1,560本の基礎ビデオクリップが含まれています。各クリップはまず共有されたグラウンデッド・イベント記録へ変換され、その記録から3つのクエリファミリが導出されます。時間的および空間的ターゲットはプロンプトファミリ間で共有されますが、非物理系ファミリでは、同じ記録から導出された決定論的で、ファミリに適したセマンティックな a_what ターゲットを用います。モデルとプロンプトファミリの双方において、物理系が全体として最も強い領域であり、vstar_like は非物理系における最も明確なセマンティック比較であり、neutral_rstr はより難しいテンプレート化された制御として振る舞います。プロンプトファミリの頑健性は普遍的というより選択的であり、摂動による改善は弱い original のケースにまとまって現れ、空間的なグラウンディングは設定全体で最も弱いことが示されます。これらの結果は、ビデオQ&Aの推論ベンチマークは、集計精度に加えて、物理的にグラウンデッドであり、プロンプトに応答した（prompt-aware）こと、そして摂動に応答した（perturbation-aware）ことを診断する指標も報告すべきであることを示唆しています。