AI Navigate

Think While Watching: マルチモーダル大規模言語モデルにおけるオンラインストリーミングのセグメントレベルメモリを用いた多ターン動画推論

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Think While Watching を導入する、セグメントレベルのメモリを保持するメモリアンカー付きストリーミング動画推論フレームワークで、マルチモーダル LLMs におけるマルチターンタスクを対象とします。
  • 三段階の多回チェーン・オブ・ソウトデータセットと段階適合訓練戦略を提案し、因果性を強制するセグメントレベルのストリーミング因果マスクとストリーミング位置エンコーディングを採用します。
  • 観察と推論を重ね合わせる効率的な推論パイプラインを提案し、最適なアテンションバックエンドを適応的に選択します。StreamingBench で +2.6%、OVO-Bench で +3.79% の改善を達成し、マルチラウンド設定で出力トークンを 56% 減らします。
  • Qwen3-VL 上に構築されており、コードは以下で公開されています: https://github.com/wl666hhh/Think_While_Watching/
マルチモーダル大規模言語モデル(MLLMs)はオフラインのビデオ理解において高い性能を示している一方で、多くはオフライン推論に限定されるか、オンライン推論が弱く、連続して到着するビデオストリームに対するマルチターンの相互作用を難しくしている。既存のストリーミング手法は通常、知覚と生成を交互に行うパラダイムを採用しており、同時に知覚と生成を行えず、ストリームが拡大するにつれて早期のメモリ減衰を引き起こし、長距離依存性のモデリングを阻害する。我々は Think While Watching を提案する。これはマルチターンの相互作用中に連続的なセグメントレベルのメモリを保持するメモリアンカーテッドなストリーミング動画推論フレームワークだ。我々は三段階の多回思考の連鎖データセットを構築し、段階適合の訓練戦略を採用する。一方、セグメントレベルのストリーミング因果マスクとストリーミング位置エンコーディングを通じて厳密な因果性を強制する。推論中には、観察と推論を重ね合わせ、最適なアテンションバックエンドを適応的に選択する効率的なパイプラインを導入する。単一ラウンドおよび複数ラウンドのストリーミング入力プロトコルの下で、我々の手法は強力な結果を達成する。Qwen3-VL 上に構築され、StreamingBench で単一ラウンドの精度を 2.6% 向上させ、OVO-Bench で 3.79% 向上させる。マルチラウンド設定では、出力トークンを 56% 減らしつつ性能を維持している。コードは以下で利用可能: https://github.com/wl666hhh/Think_While_Watching/