WorldMM：長時間ビデオ推論のための動的マルチモーダル・メモリエージェント

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本記事では、既存のビデオLLMが長時間にわたってコンテキストが限られ、視覚的な詳細が失われやすいという課題を改善するための、マルチモーダル・メモリエージェント「WorldMM」を紹介する。
WorldMMは、3種類の補完的なメモリタイプ—エピソード（多尺度の事実的イベント）、セマンティック（継続的に更新される概念）、ビジュアル（詳細なシーン情報を保持）—を用いることで、多くのメモリ拡張アプローチがテキストのみへ依存してしまう問題を克服する。
推論時には、適応的なリトリーバル・エージェントが反復的に最も関連性の高いメモリソースを選択し、クエリに応じて時間的粒度を動的に変化させながら、必要な情報が十分に集まったと判断するまで探索を続ける。
提案手法は、5つの長時間ビデオの質問応答ベンチマークにおいて、従来の最先端ベースラインを上回る結果が報告されており、平均8.4%の性能向上を達成している。
本研究は、過去のメモリ手法で用いられていた固定の時間尺度に基づくリトリーバル戦略を避けることで、持続時間が可変なイベントに対する柔軟性を特に重視している。

要旨: 近年のビデオ大型言語モデルの進歩により、短いクリップの理解において強力な能力が示されています。しかし、時間単位で数時間や数日といった長時間の動画へスケールすることは、文脈容量が限られていることや、抽象化の過程で重要な視覚的詳細が失われることにより、依然として非常に困難です。既存のメモリ拡張手法は、ビデオ区間のテキスト要約を活用することでこの課題を緩和しますが、テキストに大きく依存しており、複雑なシーンを推論するときに視覚的な根拠を十分に利用できていません。さらに、固定された時間スケールからの検索は、可変の持続時間にまたがる出来事を捉える柔軟性をさらに制限します。これに対処するため、テキストと視覚の両方を含む複数の相補的メモリを構築・検索する新しいマルチモーダル・メモリ・エージェントであるWorldMMを提案します。WorldMMは3種類のメモリから構成されます。エピソード・メモリは、複数の時間スケールにわたって事実的な出来事をインデックス化します。セマンティック・メモリは、高レベルの概念知識を継続的に更新します。そしてビジュアル・メモリは、シーンに関する詳細情報を保持します。推論時には、適応的な検索エージェントが最も関連性の高いメモリ源を反復的に選択し、クエリに基づいて複数の時間粒度を活用します。そして、十分な情報が収集できたと判断するまで継続します。WorldMMは、5つの長時間ビデオの質問応答ベンチマークすべてにおいて既存のベースラインを大きく上回り、従来の最先端手法に対して平均8.4%の性能向上を達成しました。これは、長時間ビデオの推論における有効性を示しています。