SGTA: ビデオ理解のためのシーングラフに基づくマルチモーダル交通エージェント

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SGTAは、検出、追跡、レーン抽出を通じて路側のビデオから構造化されたシーングラフを構築する、交通ビデオ理解のためのモジュール型フレームワークである。
  • シーングラフのクエリと、ツールベースの手順によるマルチモーダルな視覚推論を組み合わせて、多様な交通関連のビデオ質問に回答する。
  • この手法は、解釈可能な意思決定を目指して、大規模言語モデルの推論トレースと明示的なツール呼び出しを交互に行うためにReActを用いる。
  • TUMTraffic VideoQAデータセットでの実験では、複数の質問タイプにわたって競争力のある精度を示しつつ、推論トレースを透明化して提供している。
  • 本研究は、構造化表現(シーングラフ)とマルチモーダルなエージェント型推論を組み合わせることで、交通ビデオQAの性能と解釈可能性の両方を向上できる可能性を示唆している。

概要: 本稿では、構造化されたシーングラフとマルチモーダル推論を組み合わせた、交通ビデオ理解のためのモジュール式フレームワークであるScene-Graph Based Multi-Modal Traffic Agent(SGTA)を提案する。SGTAは、検出、トラッキング、レーン抽出を用いて路側ビデオから交通シーングラフを構築し、その後、シンボリックなグラフクエリと視覚入力の両方に対してツールベースの推論を行う。SGTAはReActを採用し、大規模言語モデルからの推論トレースがツール呼び出しと交互に現れる形でそれらを処理することで、複雑なビデオ質問に対する解釈可能な意思決定を可能にする。選定したTUMTraffic VideoQAデータセットのサンプルに関する実験では、SGTAが複数の質問タイプにわたって競争力のある精度を達成し、さらに推論ステップを透明に提示できることが示された。これらの結果は、交通ビデオ理解において、構造化されたシーン表現とマルチモーダルエージェントを統合する可能性を示している。