SGTA: ビデオ理解のためのシーングラフに基づくマルチモーダル交通エージェント

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SGTAは、検出、追跡、レーン抽出を通じて路側のビデオから構造化されたシーングラフを構築する、交通ビデオ理解のためのモジュール型フレームワークである。
シーングラフのクエリと、ツールベースの手順によるマルチモーダルな視覚推論を組み合わせて、多様な交通関連のビデオ質問に回答する。
この手法は、解釈可能な意思決定を目指して、大規模言語モデルの推論トレースと明示的なツール呼び出しを交互に行うためにReActを用いる。
TUMTraffic VideoQAデータセットでの実験では、複数の質問タイプにわたって競争力のある精度を示しつつ、推論トレースを透明化して提供している。
本研究は、構造化表現（シーングラフ）とマルチモーダルなエージェント型推論を組み合わせることで、交通ビデオQAの性能と解釈可能性の両方を向上できる可能性を示唆している。

概要: 本稿では、構造化されたシーングラフとマルチモーダル推論を組み合わせた、交通ビデオ理解のためのモジュール式フレームワークであるScene-Graph Based Multi-Modal Traffic Agent（SGTA）を提案する。SGTAは、検出、トラッキング、レーン抽出を用いて路側ビデオから交通シーングラフを構築し、その後、シンボリックなグラフクエリと視覚入力の両方に対してツールベースの推論を行う。SGTAはReActを採用し、大規模言語モデルからの推論トレースがツール呼び出しと交互に現れる形でそれらを処理することで、複雑なビデオ質問に対する解釈可能な意思決定を可能にする。選定したTUMTraffic VideoQAデータセットのサンプルに関する実験では、SGTAが複数の質問タイプにわたって競争力のある精度を達成し、さらに推論ステップを透明に提示できることが示された。これらの結果は、交通ビデオ理解において、構造化されたシーン表現とマルチモーダルエージェントを統合する可能性を示している。

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

SGTA: ビデオ理解のためのシーングラフに基づくマルチモーダル交通エージェント

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別