要約:ダイナミックな環境で動作する対話型アシスタントやマルチモーダルエージェントにとって、連続的な動画ストリームをリアルタイムで理解することは不可欠です。しかし、既存の多くの動画推論アプローチは、完全な動画コンテキストが観測されるまで推論を遅らせるバッチ型パラダイムに従うため、高遅延と増大する計算コストを招き、ストリーミングの状況には適合しません。本論文では、Watch--Think--Speak パラダイムに基づくストリーミング動画推論のフレームワーク ThinkStream を導入します。これにより、新しい動画観察が到着するたびにモデルが理解を逐次更新できるようになります。各ステップで、モデルは短い推論アップデートを実行し、応答を生成するのに十分な証拠が蓄積されたかどうかを判断します。長期的なストリーミングを支えるために、Reasoning-Compressed Streaming Memory (RCSM) を提案します。これは中間的な推論痕跡をコンパクトな意味メモリとして扱い、時代遅れのビジュアルトークンを置換しつつ重要な文脈を保持します。さらに、Streaming Reinforcement Learning with Verifiable Rewards スキームを用いてモデルを訓練し、逐次推論と応答のタイミングをストリーミングインタラクションの要件と整合させます。複数のストリーミング動画ベンチマークでの実験は、ThinkStream が既存のオンライン動画モデルを大幅に上回りつつ、低遅延と低メモリ使用を維持することを示しています。コード、モデル、データは https://github.com/johncaged/ThinkStream で公開される予定です。
ストリーミング動画における思考
arXiv cs.CV / 2026/3/16
📰 ニュースSignals & Early TrendsModels & Research
要点
- ThinkStream は、新しいビデオ観測が到着するたびに理解をインクリメンタルに更新するストリーミング動画推論フレームワークを導入し、インタラクティブエージェントの遅延を低減します。
- Watch--Think--Speak パラダイムを採用しており、モデルは各ステップで短い推論更新を行い、十分な証拠が蓄積された時点で応答するかを決定します。
- このフレームワークは Reasoning-Compressed Streaming Memory (RCSM) を用いて、中間の推論痕跡をコンパクトな意味記憶として保存し、時代遅れの視覚トークンを置き換えつつ、長期的なタスクに必要な文脈を保持します。
- 検証可能な報酬を伴うストリーミング強化学習(Streaming Reinforcement Learning with Verifiable Rewards)スキームを提案し、逐次推論と応答タイミングをストリーミング対話の要件に合わせて整合させます。実験では性能の向上、低遅延、メモリ使用量の削減を示し、コードとモデルはGitHubで公開される予定です。