ストリーミング動画における思考

arXiv cs.CV / 2026/3/16

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

ThinkStream は、新しいビデオ観測が到着するたびに理解をインクリメンタルに更新するストリーミング動画推論フレームワークを導入し、インタラクティブエージェントの遅延を低減します。
Watch--Think--Speak パラダイムを採用しており、モデルは各ステップで短い推論更新を行い、十分な証拠が蓄積された時点で応答するかを決定します。
このフレームワークは Reasoning-Compressed Streaming Memory (RCSM) を用いて、中間の推論痕跡をコンパクトな意味記憶として保存し、時代遅れの視覚トークンを置き換えつつ、長期的なタスクに必要な文脈を保持します。
検証可能な報酬を伴うストリーミング強化学習（Streaming Reinforcement Learning with Verifiable Rewards）スキームを提案し、逐次推論と応答タイミングをストリーミング対話の要件に合わせて整合させます。実験では性能の向上、低遅延、メモリ使用量の削減を示し、コードとモデルはGitHubで公開される予定です。

要約：ダイナミックな環境で動作する対話型アシスタントやマルチモーダルエージェントにとって、連続的な動画ストリームをリアルタイムで理解することは不可欠です。しかし、既存の多くの動画推論アプローチは、完全な動画コンテキストが観測されるまで推論を遅らせるバッチ型パラダイムに従うため、高遅延と増大する計算コストを招き、ストリーミングの状況には適合しません。本論文では、Watch--Think--Speak パラダイムに基づくストリーミング動画推論のフレームワーク ThinkStream を導入します。これにより、新しい動画観察が到着するたびにモデルが理解を逐次更新できるようになります。各ステップで、モデルは短い推論アップデートを実行し、応答を生成するのに十分な証拠が蓄積されたかどうかを判断します。長期的なストリーミングを支えるために、Reasoning-Compressed Streaming Memory (RCSM) を提案します。これは中間的な推論痕跡をコンパクトな意味メモリとして扱い、時代遅れのビジュアルトークンを置換しつつ重要な文脈を保持します。さらに、Streaming Reinforcement Learning with Verifiable Rewards スキームを用いてモデルを訓練し、逐次推論と応答のタイミングをストリーミングインタラクションの要件と整合させます。複数のストリーミング動画ベンチマークでの実験は、ThinkStream が既存のオンライン動画モデルを大幅に上回りつつ、低遅延と低メモリ使用を維持することを示しています。コード、モデル、データは https://github.com/johncaged/ThinkStream で公開される予定です。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

ストリーミング動画における思考

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも