INHerit-SG:RAG型リトリーバルを備えたインクリメンタル階層型セマンティック・シーングラフ

arXiv cs.RO / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • INHerit-SGは、3D環境をRAG対応の知識ベースとして構造化し、ロボットナビゲーションのための階層的セマンティック・シーングラフを構築する新しい研究フレームワークである。
  • 非同期デュアルストリーム構成とイベント駆動の更新方式を用い、包括的なノード表現を持たせる一方、マッピング効率を高めるために幾何セグメンテーションとセマンティック推論を切り離している。
  • セマンティックノードには自然言語の要約を保存し、テキストベースの検索を可能にしつつ、解釈可能なパイプラインとして複数ロールのLLM推論とシーングラフのトポロジを結び付けている。
  • 検索時の誤検出を減らすために、視覚による検証プロセスを追加している。
  • 新たに構築したベンチマークHM3DSem-SQRおよび実環境で評価され、否定や連鎖した空間制約を含む複雑な身体性クエリにおいて特に高い最先端性能を示している。

概要: 最近の基盤モデルの進展により、セマンティック・シーングラフは、ロボットナビゲーションにおける高レベルな3D環境の抽象化のための有望なパラダイムとして登場してきた。しかし、既存の枠組みは、連続的なセマンティック・グラフ構築を確実に行いながら、複雑な身体性を伴うクエリをうまく扱うことに苦戦している。これらの制約に対処するために、本稿ではINHerit-SGを提案する。これは、3D環境をRAG対応の知識ベースへと体系的に構造化する、非同期のデュアルストリーム・アーキテクチャである。具体的には、我々の枠組みは、包括的なノード表現、イベントによりトリガされる非同期更新方式、そして構造化された取得(リトリーバル)の仕組みを統合する。幾何学的なセグメンテーションは、マッピング効率を維持するためにセマンティック推論から切り離される一方で、セマンティック・ノードもテキストベースの取得を支援する自然言語による要約を保存する。さらに、我々は、多役(multi-role)LLMの推論能力とシーングラフのトポロジカルな構造を結び付ける、解釈可能な取得パイプラインを提案し、その後に視覚による検証プロセスを行って誤検出を抑える。INHerit-SGを、新たに構築した複雑な身体性を伴うセマンティック・クエリ取得のためのベンチマークHM3DSem-SQRと、実世界環境で評価する。実験の結果、我々のシステムは複雑なクエリ、特に否定(negations)や連鎖した空間制約を含むクエリにおいて、最先端の性能を達成することを示す。プロジェクトページ: https://fangyuktung.github.io/INHeritSG.github.io/