VL-KnG：エゴセントリック視点映像から構築する持続的な時空間知識グラフによる身体性を備えたシーン理解

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単眼のエゴセントリック映像から持続的な時空間知識グラフを構築し、身体性を備えたシーン理解を支援するための、学習不要（training-free）の枠組みであるVL-KnGを提案する。

概要: 画像・言語モデル（VLM）は画像レベルでのシーン理解において強力な性能を示しますが、長い動画列を推論する際に、持続的なメモリ、明示的な空間表現、そして計算効率が不足しがちです。本稿では、VL-KnGを提案します。これは学習不要の枠組みで、単眼動画から時空間の知識グラフを構築し、3D再構成なしで、きめ細かなシーングラフと大域的なトポロジーグラフをつなぎます。VL-KnGは動画をチャンクに分けて処理し、LLMベースの時空間オブジェクト関連付け（STOA）により持続的な物体の同一性を維持し、グラフ強化検索（GER）によって質問に答えます。GERは、GraphRAGのサブグラフ検索とSigLIP2による視覚的グラウンディングを組み合わせたハイブリッドです。いったん構築された後、この知識グラフは、照会時に動画を再処理する必要をなくし、動画の長さにかかわらず推論を定数時間で可能にします。3つのベンチマーク、OpenEQA、NaVQA、そして（新たに導入した）WalkieKnowledgeにわたる評価では、VL-KnGが、説明可能でグラフに基づく推論を伴いながら、実装上のクエリ待ち時間を大幅に低くした状態で、身体化されたシーン理解タスクにおいて最先端のVLMと同等、または上回ることが示されます。実環境でのロボットへの展開により、定数時間のスケーリングによる実用性も確認されました。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

VL-KnG：エゴセントリック視点映像から構築する持続的な時空間知識グラフによる身体性を備えたシーン理解

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer