Chain-of-Glimpse：検索ガイド付きの進展的な物体に根ざした推論による動画理解

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

新たに提案されたChain-of-Glimpseは、オブジェクト非依存の手がかりに頼るのではなく、推論の各ステップを特定の視覚的エビデンス領域に明示的に根拠づけることで、動画理解を改善することを目的としています。
動画推論を、タスクに関連する物体の周りに空間的に根ざしたトレースを段階的に構築する“ステップごとのプロセス”として定式化し、サリエンシー（目立ち）への過度な依存を抑えます。
検索ガイド付きコントローラを強化学習で学習し、フォーマット報酬によって“根拠づけの能力”を強く促すことで、信頼できる推論軌道を反復的に形成します。
NExTQAやVideo-Holmes、CG-Bench Reasoning、VRBenchなど複数のベンチマークで一貫した性能向上が確認され、多様な動画推論タスクに対する頑健性と汎化性能が示されています。
フレーム間で意味的に識別力のある物体を対象に、合成的かつ解釈可能な多段階の意思決定を支える設計になっています。

要旨: 映像理解では、フレーム間にわたって意味的に識別的な視覚的対象を同定し、それらについて推論する必要がある。しかし既存の物体非特化（object-agnostic）ソリューションは、時間の経過に伴う大量の物体変動を効果的に扱うことに苦戦している。そこで本研究では、Chain-of-Glimpse（注視の連鎖）を提案する。これは、探索に導かれた漸進的な物体グラウンディング推論の枠組みであり、各推論ステップを特定の視覚的証拠領域へ明示的にアンカー付けすることで、構成的かつ多段階の意思決定を可能にする。形式的には、Chain-of-Glimpseは、映像推論を、タスクに関連する視覚的対象の周囲に空間的に根拠づけられた痕跡を段階的に構築するステップごとのプロセスとして定式化し、それにより、注目（saliency）に駆動された手がかりへの過度な依存を緩和する。具体的には、Chain-of-Glimpseは、グラウンディング能力を強く動機づけるフォーマット報酬によって強化学習で最適化された探索誘導コントローラを備え、視覚的証拠領域を反復的にグラウンディングして信頼できる推論軌跡を形成し、その結果として正確で解釈可能な多段階の意思決定を達成する。NExTQAの領域内、および領域外のVideo-Holmes、CG-Bench Reasoning、VRBenchのベンチマークの双方で行った大規模な評価により、多様な映像推論タスクにわたって、Chain-of-Glimpseが一貫した性能向上、頑健性、ならびに汎化性を示すことが確認された。