GIST:インテリジェントなセマンティック・トポロジーによるマルチモーダル知識抽出と空間グラウンディング
arXiv cs.AI / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- GIST(Grounded Intelligent Semantic Topology)は、スマホのモバイル点群から2D占有マップとトポロジーを抽出し、軽量なセマンティック層を重ねるマルチモーダル知識抽出パイプラインを提案しています。
- 混雑した環境での空間グラウンディング課題に対し、インテリジェントなキーフレーム選択とセマンティック選択によって、視覚特徴の陳腐化やロングテール意味分布の問題を緩和する狙いがあります。
- 下流タスクとして、意図駆動のセマンティック検索(部分一致時の代替カテゴリ/ゾーン推定)、1ショットのセマンティックローカライザ(上位5の平均平行移動誤差1.04m)、歩行可能床面のゾーン分類、ランドマークに基づく経路の自然言語生成を統合的に実現します。
- LLM評価では、シーケンス型の命令生成ベースラインよりGISTが優れるとされ、現地での試行(N=5)でも音声のみで80%のナビゲーション成功率を示し、「ユニバーサルデザイン」への有効性を示唆しています。



