視覚障害者(盲人・弱視者)のためのアクセス可能な屋内ナビゲーションに向けた、LLM誘導エージェント型フロアプラン解析

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、1枚の屋内フロアプラン画像から構造化された検索可能な知識ベースを作り、BLV(盲人・弱視者)のための安全なナビゲーションを低コストな軽量インフラで実現する、LLM誘導のエージェント型フレームワークを提案します。
  • アプローチは複数エージェントによる解析フェーズで構成され、自己修正的なパイプラインにより、反復リトライループと修正フィードバックを用いて空間知識グラフを構築します。
  • その後の経路計画フェーズでは、アクセス可能なナビゲーション手順を生成し、各ルートに沿う潜在的な危険を評価する「Safety Evaluator」エージェントが安全性を確認します。
  • UMBCのMathおよびPsychologyビル(MP-1、MP-3)とCVC-FPベンチマークで評価した結果、最強の単発呼び出し型LLMベースライン(Claude 3.7 Sonnet)より成功率が高く、特に短距離・中距離で優位でした。
  • 全体として、構造化された解析、計画、安全性評価を組み合わせることで、屋内ナビゲーションの信頼性とスケーラビリティを改善できることが示されています。

概要: 屋内ナビゲーションは、視覚障害(BLV)を持つ人々にとって、依然として重要なアクセシビリティ上の課題です。既存の解決策は、建物ごとにコストのかかるインフラに依存しているためです。本稿では、単一の間取り(フロアプラン)画像を、構造化され、検索可能な知識ベースへと変換するエージェント型フレームワークを提案し、軽量なインフラで安全でアクセス可能なナビゲーション手順を生成します。本システムには2つのフェーズがあります。1つ目はマルチエージェントモジュールで、自己修正型パイプラインを通じて反復リトライループと是正フィードバックを行いながら、フロアプランを空間知識グラフへと解析します。2つ目は経路プランナーで、各ルート上の潜在的な危険を評価する安全評価エージェントが、経路ごとの危険を見積もりながら、アクセス可能なナビゲーション手順を生成します。実世界のUMBCの数学・心理学ビル(MP-1およびMP-3階)と、CVC-FPベンチマークで本システムを評価します。MP-1では、短距離・中距離・長距離ルートに対して成功率92.31%、76.92%、61.54%を達成し、最も強力な単発コールのベースライン(Claude 3.7 Sonnet)の84.62%、69.23%、53.85%を上回ります。MP-3では、ベストなベースラインである61.54%、46.15%、23.08%と比較して、76.92%、61.54%、38.46%に到達します。これらの結果は、単発コールのLLMベースラインに対して一貫した改善が得られることを示しており、本ワークフローがBLVの人々にとってのアクセシブルな屋内ナビゲーションに関するスケーラブルな解決策であることを示しています。