CurveStream: 曲率を意識した階層的視覚メモリ管理によるマルチモーダル大規模言語モデル(MLLMs)のストリーミング動画理解の向上

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CurveStreamは、トレーニング不要の曲率認識を組み込んだ階層的視覚メモリ管理フレームワークを導入し、マルチモーダル大規模言語モデルにおけるストリーミング動画の理解を向上させ、メモリ制約と忘却に対処します。
  • 曲率スコアとオンラインのK-シグマ動的閾値を用いて、厳格なトークン予算の下でフレームを明瞭なメモリ状態と曖昧なメモリ状態へ適応的に振り分けます。
  • 連続的な特徴軌道に沿う高曲率領域が、重要な意味的転換と一致するという観察に動機づけられています。
  • 評価は、ベースラインに対して顕著な性能向上を報告しており(例:StreamingBenchで10.69%、OVOBenchで13.58%)、ストリーミング動画知覚における最先端の成果を主張しています。コードはGitHubで公開予定です。

概要: マルチモーダル大規模言語モデルは、オフライン動画理解において顕著な成功を収めている一方で、ストリーミング動画への適用は、視覚トークンの線形爆発により深刻に制限されており、しばしば Out-of-Memory (OOM) エラーや壊滅的忘却を招く。既存の視覚保持およびメモリ管理手法は、通常、一様サンプリング、低レベルの物理メトリクス、または受動的キャッシュ排除に依存します。しかし、これらの戦略は固有の意味認識を欠くことが多く、文脈的一貫性を損ない、過渡的でありながら重要な意味的転換をぼかす可能性があります。これらの制限に対処するため、トレーニング不要で曲率を意識した階層的視覚メモリ管理フレームワークである CurveStream を提案します。私たちのアプローチは、連続した特徴軌道に沿う高曲率領域が、重要なグローバルな意味的転換と密接に一致するという重要な観察に動機づけられています。この幾何学的洞察に基づき、CurveStream は Curvature Score(曲率スコア)を用いてリアルタイムの意味強度を評価し、オンラインの K-シグマ動的閾値を組み込んで、厳密なトークン予算の下でフレームを明瞭なメモリ状態と曖昧なメモリ状態へ適応的に振り分けます。多様な時間スケールにわたる評価は、この軽量なフレームワーク CurveStream が、各ベースラインを上回り、絶対性能向上を 10% 超で一貫してもたらすことを確認しています(例:StreamingBench で 10.69%、OVOBench で 13.58%)。これにより、ストリーミング動画知覚の新たな最先端の結果を確立します。コードは https://github.com/streamingvideos/CurveStream にて公開される予定です。