GIST:インテリジェントなセマンティック・トポロジーによるマルチモーダル知識抽出と空間グラウンディング

arXiv cs.AI / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • GIST(Grounded Intelligent Semantic Topology)は、スマホのモバイル点群から2D占有マップとトポロジーを抽出し、軽量なセマンティック層を重ねるマルチモーダル知識抽出パイプラインを提案しています。
  • 混雑した環境での空間グラウンディング課題に対し、インテリジェントなキーフレーム選択とセマンティック選択によって、視覚特徴の陳腐化やロングテール意味分布の問題を緩和する狙いがあります。
  • 下流タスクとして、意図駆動のセマンティック検索(部分一致時の代替カテゴリ/ゾーン推定)、1ショットのセマンティックローカライザ(上位5の平均平行移動誤差1.04m)、歩行可能床面のゾーン分類、ランドマークに基づく経路の自然言語生成を統合的に実現します。
  • LLM評価では、シーケンス型の命令生成ベースラインよりGISTが優れるとされ、現地での試行(N=5)でも音声のみで80%のナビゲーション成功率を示し、「ユニバーサルデザイン」への有効性を示唆しています。

Abstract

小売店、倉庫、病院のような複雑で高密度に詰まった環境を、人間や身体性を備えたAIがナビゲートすることは、大きな空間的グラウンディングの課題です。これらの空間では、物体が準静的であるため、密な視覚特徴はすぐに陳腐化します。また、長い尾をもつ意味分布が、従来のコンピュータビジョンに難題を突きつけます。視覚言語モデル(VLM)は支援システムのために意味的に豊かな空間の移動を助けますが、それでも雑然とした環境での空間的グラウンディングが困難です。本研究では、GIST(Grounded Intelligent Semantic Topology)を提案します。これは、消費者向けモバイルのポイントクラウドを、意味が注釈されたナビゲーション・トポロジーへと変換するマルチモーダルな知識抽出パイプラインです。我々のアーキテクチャは、シーンを2次元の占有(オキュパンシー)マップに蒸留し、そのトポロジー構造を抽出し、知的なキー・フレーム選択と意味選択によって軽量な意味レイヤーを重畳します。このような構造化された空間知識の汎用性を、重要な下流のHuman-AIインタラクション課題によって実証します:(1)意図に基づいて、完全一致が失敗した場合にカテゴリの代替案やゾーンを能動的に推論するSemantic Searchエンジン、(2)1-shotで実現するSemantic Localizerで、トップ5の平均並進誤差が1.04 m、(3)歩行可能な床面プランを高レベルの意味領域にセグメントするZone Classificationモジュール、そして(4)ランドマークに富んだ自己中心的(egocentric)な自然言語によるルーティングへ最適な経路を合成するVisually-Grounded Instruction Generatorです。複数基準のLLM評価において、GISTは系列ベースの命令生成ベースラインを上回ります。最後に、現場での形成的評価(N=5)では、言語的手がかりのみに依存して80%のナビゲーション成功率が得られ、本システムがユニバーサルデザインに対応できる能力を検証します。