ARGOS:エージェント型マルチカメラ人物探索における誰が・どこで・いつを扱うか
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、情報非対称性のもとでマルチカメラ人物探索をインタラクティブな推論タスクとして再定式化するベンチマークおよびエージェント型フレームワークARGOSを提案する。
- ARGOSのエージェントは、質問を計画し、空間/時間のツールをいつ使用するかを判断し、限られたターン数の中で曖昧な応答を解消する必要がある。
- 提案手法は、カメラの接続性と実験的に検証された遷移時間を符号化する、時空間トポロジーグラフ(STTG)に推論を基づけている。
- ベンチマークは、14の実環境シナリオにまたがる2,691件のタスクを含み、意味理解(Who)、空間推論(Where)、時間推論(When)に焦点を当てた3つの段階的トラックを設けている。
- 4種類のLLMバックボーンを用いた実験では、本問題が依然として難しいことが示される(最良のTrack 2 TWS:0.383、最良のTrack 3 TWS:0.590)。さらにアブレーションにより、領域固有のツールを取り除くと精度が最大49.6パーセントポイント低下し得ることが示される。




