StreamMeCo:効率的なストリーミングビデオ理解のための長期エージェントメモリ圧縮

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • StreamMeCo は、視覚ストリーミングエージェントにおける長期メモリを圧縮し、精度の大幅な低下を抑えつつ、ストレージおよび計算のオーバーヘッドを削減するための提案フレームワークである。
  • 分離されたメモリグラフのノード(エッジなし)には minmax サンプリングを用い、接続されたノードにはエッジを考慮した重みプルーニングにより冗長なメモリを退避(evict)する一方で、性能を維持する。
  • 圧縮による潜在的な劣化に対抗するため、StreamMeCo は古くなった情報を重要度低下させる時間減衰(time-decay)型のメモリ検索メカニズムを追加する。
  • M3-Bench-robot、M3-Bench-web、Video-MME-Long に対する実験では、メモリグラフを最大 70% 圧縮しても、メモリ検索の 1.87× の高速化と、平均 1.0% の精度向上が達成された。
  • 著者らは、リンクされた GitHub リポジトリに実装を提供しており、再現や、エージェントメモリ効率の高いストリーミングビデオ理解のさらなる発展が可能になる。

概要: ビジョンエージェントのメモリは、ストリーミング動画理解において目覚ましい有効性を示してきました。しかし、このようなメモリを動画に対して保存するには、膨大なメモリオーバーヘッドがかかり、その結果、保存と計算の両面で高コストになります。この問題に対処するため、我々は効率的なストリーム・エージェント・メモリ圧縮の枠組みであるStreamMeCoを提案します。具体的には、メモリグラフの接続性に基づき、孤立ノードに対してエッジなしのminmaxサンプリングを導入し、接続ノードに対してエッジを考慮した重みプルーニングを行うことで、冗長なメモリノードを退避(エビクト)しつつ精度を維持します。さらに、メモリ圧縮によって引き起こされる性能低下をより一層取り除くために、時間減衰(time-decay)のメモリ検索メカニズムも導入します。3つの困難なベンチマークデータセット(M3-Bench-robot、M3-Bench-web、Video-MME-Long)に対する大規模な実験の結果、メモリグラフ圧縮70%未満の条件下で、StreamMeCoはメモリ検索において1.87*の高速化を達成し、平均精度は1.0%の改善をもたらすことを示しました。コードは https://github.com/Celina-love-sweet/StreamMeCo で公開しています。