要約:ビデオエージェント型モデルは、難易度の高い動画と言語のタスクを進展させてきました。
しかし、ほとんどのエージェント型アプローチは密にサンプリングされた動画フレームに対する貪欲な解析に過度に依存しており、計算コストが高くなります。
私たちは VideoSeek を提示します。長期的な視野を持つ動画エージェントで、動画の論理フローを活用して、全動画を網羅的に解析する代わりに、回答にとって重要な証拠を積極的に探索します。
この洞察により、モデルははるかに少ないフレームを使用しつつ、動画理解能力を維持し、さらには向上させることも可能になります。
VideoSeek は、思考-行動-観察のループで動作し、多段階の動画観察を収集するための、精巧に設計されたツールキットを備えています。
この設計は、蓄積された観察に対するクエリ対応型探索を可能にし、実践的な動画理解と推論を支援します。
4つの難易度の高い動画理解と推論のベンチマークに関する実験は、VideoSeek が従来の動画エージェントや単独の大規模言語モデルよりもはるかに少ないフレームを使用しつつ、高い精度を達成することを示しています。
特に、VideoSeek は LVBench においてベースモデルの GPT-5 に対して絶対値で 10.2 ポイントの改善を達成し、フレーム数を 93% 減らしています。
さらに分析は、動画の論理フローを活用する重要性、強力な推論能力、およびツールキット設計の補完的な役割を強調しています。
VideoSeek: ツール支援による長期視野の動画エージェント
arXiv cs.CL / 2026/3/23
📰 ニュースTools & Practical UsageModels & Research
要点
- VideoSeekは、思考-行動-観察のループとツールキットを用いて複数粒度の観測を収集する長期視野の動画エージェントを導入し、フレームを密にサンプリングする必要性を低減します。
- このアプローチは、動画ロジックフローを活用してクエリの証拠を積極的に探し出し、はるかに少ないフレームを使用しつつ動画理解を維持または向上させます。
- 4つの難易度の高いベンチマークにおいて、VideoSeekは高い精度を達成し、LVBenchでベースモデルのGPT-5を絶対値で10.2ポイント上回りつつ、フレームを93%少なく使用します。
- 本研究は、実用的な動画理解と推論のためにはツールキット設計と堅牢な推論能力の重要性を強調しています。