AI Navigate

WAT: 考える前には視聴が必要なオンライン動画理解

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • WAT は、クエリに依存しない視聴段階とクエリによって引き起こされる思考段階を分離するオンライン動画推論の二段階フレームワークを提案し、長い時間的文脈と厳格なメモリ制約を伴うストリーミングシナリオに対処します。
  • 視聴段階は、最近のフレームをバッファする短期記憶(STM)と、履歴の多様な要約を維持する固定容量の長期記憶(LTM)を備え、冗長性を意識した排除ポリシーを用いて階層的メモリシステムを構築します。
  • 思考段階は、クエリと STM の文脈を組み合わせた文脈認識型検索機構を用い、LTM から関連する過去のフレームを取得して時間を跨ぐ推論を行います。
  • WAT-85K は、リアルタイム知覚、逆追跡、予測を強調するストリーミング形式のアノテーションを備えたデータセットで、StreamingBench(77.7% の精度)および OVO-Bench(55.2% の精度)で最先端の成果を報告し、既存のオープンソースのオンライン Video LLM を上回りつつ、リアルタイムのフレームレートを達成します。

要約:マルチモーダル大規模言語モデル(MLLMs)は画像理解において高い能力を示しており、これを動画推論へ拡張しようとする最近の取り組みを促しています。
しかし、既存の動画LLMsはオンラインストリーミングの状況で苦戦しており、長い時系列の文脈を厳格なメモリ制約の下で保持する必要があります。
オンライン動画推論のための二段階フレームワークとして、WAT(Watching Before Thinking)を提案します。
WATは処理を、クエリに依存しないウォッチング段階と、クエリによって引き起こされる思考段階に分離します。
ウォッチング段階は、最近のフレームをバッファする Short-Term Memory(STM)と、歴史的内容の多様な要約を維持する固定容量の Long-Term Memory(LTM)を組み合わせた階層的なメモリシステムを構築します。冗長性を意識したエビクションポリシーを用います。
思考段階では、文脈を意識した検索機構がクエリと現在のSTMコンテキストを結びつけ、時系列を横断する推論のためにLTMから関連する過去のフレームを取得します。
オンライン動画タスクの訓練を支援するために、リアルタイム知覚、逆向き追跡、予測を強調したストリーミング風の注釈を含むデータセット WAT-85K を導入します。
実験の結果、WATはオンライン動画ベンチマークで最先端の性能を達成し、StreamingBenchで77.7%、OVO-Benchで55.2%の精度を示し、リアルタイムのフレームレートで動作しつつ、既存のオープンソースのオンライン動画LLMsを上回りました。