概要: 数十年にわたる取り組みにもかかわらず、監視は長時間のマルチカメラ動画において特定のターゲットを見つけることに依然として苦戦しています。従来の手法――トラッキング・パイプライン、CLIPに基づくモデル、VideoRAG――は、重い手作業によるフィルタリングを必要とし、浅い属性しか捉えられず、時間的推論に失敗します。実世界の捜索は本質的にマルチモーダルです(例:「この人物はいつ戦いに加わるのか?」という問いに、その人物の画像を添える)にもかかわらず、この設定は十分に研究されていません。さらに、そのような設定を評価するための適切なベンチマークが存在せず、マルチモーダルなクエリによる動画への問いかけを扱う必要があります。このギャップに対処するために、我々はForeSeaQAを導入します。ForeSeaQAは、画像とテキストのクエリ、および主要イベントのタイムスタンプ付き注釈を用いた動画QAのために特化して設計された新しいベンチマークです。データセットは、長期ホライズンの監視映像と、多様なマルチモーダルな質問を組み合わせたものから成り、現実的なフォレンジック条件下での、検索(リトリーバル)、時間的グラウンディング、マルチモーダル推論を体系的に評価できるようにします。このベンチマークに限定されず、3段階のプラグアンドプレイ型パイプラインを備えたAIフォレンジック検索システムであるForeSeaも提案します。(1)トラッキングモジュールが無関係な映像をフィルタリングします。(2)マルチモーダル埋め込みモジュールが残ったクリップをインデックス化します。(3)推論時には、システムがVideo Large Language Model(VideoLLM)向けに上位K個の候補クリップを取得し、クエリに答え、イベントをローカライズします。ForeSeaQAにおいて、ForeSeaは従来のVideoRAGモデルに対して、精度を3.5%向上させ、時間的IoUを11.0改善します。私たちの知る限り、ForeSeaQAは、精密な時間的グラウンディングを伴う複雑なマルチモーダル・クエリをサポートする最初のベンチマークであり、ForeSeaは、この設定で優れることを目的に構築された最初のVideoRAGシステムです。
ForeSea:映像監視のためのマルチモーダル問い合わせによるAIフォレンジック検索
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、監視シナリオにおける映像質問応答のための新しいベンチマーク「ForeSeaQA」を導入する。これは、画像とテキスト(マルチモーダル)による問い合わせに、タイムスタンプ付きのイベント注釈を組み合わせることで、検索(retrieval)、時間的グラウンディング(temporal grounding)、およびマルチモーダル推論の評価を可能にする。
- 先行する監視検索手法(トラッキング・パイプライン、CLIPベースのアプローチ、VideoRAG)は、手作業によるフィルタリング負担、浅い属性の捉え方、そして弱い時間的推論のために課題があると論じており、特に長時間のマルチカメラ映像では問題が顕在化する。
- 提案システム「ForeSea」は、3段階のプラグアンドプレイ型パイプラインを用いる。すなわち、無関係な映像を除外するトラッキングモジュール、クリップをインデックス化するマルチモーダル埋め込みモジュール、そして推論により上位K件の候補を取得し、それをVideo LLMに入力して回答とイベントの局在化(localize)を行う。
- ForeSeaQAにおいて、ForeSeaは先行のVideoRAGモデルと比較して精度を3.5%向上、時間的IoUを11.0改善したとされており、精密な時間的グラウンディングを伴う複雑なマルチモーダル問い合わせに対する、最初期の(初の)アプローチとして位置づけられている。
