ForeSea：映像監視のためのマルチモーダル問い合わせによるAIフォレンジック検索

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、監視シナリオにおける映像質問応答のための新しいベンチマーク「ForeSeaQA」を導入する。これは、画像とテキスト（マルチモーダル）による問い合わせに、タイムスタンプ付きのイベント注釈を組み合わせることで、検索（retrieval）、時間的グラウンディング（temporal grounding）、およびマルチモーダル推論の評価を可能にする。
先行する監視検索手法（トラッキング・パイプライン、CLIPベースのアプローチ、VideoRAG）は、手作業によるフィルタリング負担、浅い属性の捉え方、そして弱い時間的推論のために課題があると論じており、特に長時間のマルチカメラ映像では問題が顕在化する。
提案システム「ForeSea」は、3段階のプラグアンドプレイ型パイプラインを用いる。すなわち、無関係な映像を除外するトラッキングモジュール、クリップをインデックス化するマルチモーダル埋め込みモジュール、そして推論により上位K件の候補を取得し、それをVideo LLMに入力して回答とイベントの局在化（localize）を行う。
ForeSeaQAにおいて、ForeSeaは先行のVideoRAGモデルと比較して精度を3.5%向上、時間的IoUを11.0改善したとされており、精密な時間的グラウンディングを伴う複雑なマルチモーダル問い合わせに対する、最初期の（初の）アプローチとして位置づけられている。

概要: 数十年にわたる取り組みにもかかわらず、監視は長時間のマルチカメラ動画において特定のターゲットを見つけることに依然として苦戦しています。従来の手法――トラッキング・パイプライン、CLIPに基づくモデル、VideoRAG――は、重い手作業によるフィルタリングを必要とし、浅い属性しか捉えられず、時間的推論に失敗します。実世界の捜索は本質的にマルチモーダルです（例：「この人物はいつ戦いに加わるのか？」という問いに、その人物の画像を添える）にもかかわらず、この設定は十分に研究されていません。さらに、そのような設定を評価するための適切なベンチマークが存在せず、マルチモーダルなクエリによる動画への問いかけを扱う必要があります。このギャップに対処するために、我々はForeSeaQAを導入します。ForeSeaQAは、画像とテキストのクエリ、および主要イベントのタイムスタンプ付き注釈を用いた動画QAのために特化して設計された新しいベンチマークです。データセットは、長期ホライズンの監視映像と、多様なマルチモーダルな質問を組み合わせたものから成り、現実的なフォレンジック条件下での、検索（リトリーバル）、時間的グラウンディング、マルチモーダル推論を体系的に評価できるようにします。このベンチマークに限定されず、3段階のプラグアンドプレイ型パイプラインを備えたAIフォレンジック検索システムであるForeSeaも提案します。（1）トラッキングモジュールが無関係な映像をフィルタリングします。（2）マルチモーダル埋め込みモジュールが残ったクリップをインデックス化します。（3）推論時には、システムがVideo Large Language Model（VideoLLM）向けに上位K個の候補クリップを取得し、クエリに答え、イベントをローカライズします。ForeSeaQAにおいて、ForeSeaは従来のVideoRAGモデルに対して、精度を3.5%向上させ、時間的IoUを11.0改善します。私たちの知る限り、ForeSeaQAは、精密な時間的グラウンディングを伴う複雑なマルチモーダル・クエリをサポートする最初のベンチマークであり、ForeSeaは、この設定で優れることを目的に構築された最初のVideoRAGシステムです。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

ForeSea：映像監視のためのマルチモーダル問い合わせによるAIフォレンジック検索

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer