VL-KnG:エゴセントリック視点映像から構築する持続的な時空間知識グラフによる身体性を備えたシーン理解

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、単眼のエゴセントリック映像から持続的な時空間知識グラフを構築し、身体性を備えたシーン理解を支援するための、学習不要(training-free)の枠組みであるVL-KnGを提案する。

概要: 画像・言語モデル(VLM)は画像レベルでのシーン理解において強力な性能を示しますが、長い動画列を推論する際に、持続的なメモリ、明示的な空間表現、そして計算効率が不足しがちです。本稿では、VL-KnGを提案します。これは学習不要の枠組みで、単眼動画から時空間の知識グラフを構築し、3D再構成なしで、きめ細かなシーングラフと大域的なトポロジーグラフをつなぎます。VL-KnGは動画をチャンクに分けて処理し、LLMベースの時空間オブジェクト関連付け(STOA)により持続的な物体の同一性を維持し、グラフ強化検索(GER)によって質問に答えます。GERは、GraphRAGのサブグラフ検索とSigLIP2による視覚的グラウンディングを組み合わせたハイブリッドです。いったん構築された後、この知識グラフは、照会時に動画を再処理する必要をなくし、動画の長さにかかわらず推論を定数時間で可能にします。3つのベンチマーク、OpenEQA、NaVQA、そして(新たに導入した)WalkieKnowledgeにわたる評価では、VL-KnGが、説明可能でグラフに基づく推論を伴いながら、実装上のクエリ待ち時間を大幅に低くした状態で、身体化されたシーン理解タスクにおいて最先端のVLMと同等、または上回ることが示されます。実環境でのロボットへの展開により、定数時間のスケーリングによる実用性も確認されました。