WalkGPT: 深度認識セグメンテーションを備えたグラウンデッド視覚-言語対話による歩行者ナビゲーション
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- WalkGPT は、ピクセル・グラウンデッドな視覚-言語モデルを用いた、深度認識を備えたセグメンテーションによる根拠づけられたナビゲーション指針を実現し、既存の LVLM のグラウンディングと深度推論の限界に対処します。
- このモデルは、会話型のナビゲーション応答とともにセグメンテーションマスクおよび相対深度推定を生成し、ユーザー提供の手掛かりなしでアクセシビリティ指向のガイダンスを支援します。
- MSQP(Multi-Scale Query Projector)と Calibrated Text Projector(CTP)を特徴とし、Region Alignment Loss を用いて言語埋め込みをセグメンテーション対応表現へ合わせます。
- 著者らは、アクセシビリティ質問と深度に基づく回答を組み合わせた 41k 件の歩行者ビュー画像を含む大規模ベンチマーク PAVE を公開します。
- 彼らは、グラウンデッド推論とセグメンテーションの性能が高いと報告し、ソースコードとデータセットをプロジェクト公式サイトで提供します。
要旨: アクセシブルな歩行者ナビゲーションを実現するには、複雑な都市景観の意味的要素と空間的要素の両方を推論する必要があり、これは既存の Large Vision-Language Models (LVLMs) が満たすのが難しい課題です。これらのモデルは視覚的内容を説明することはできますが、明示的なグラウンディングの欠如は物体の幻視と深度推論の信頼性欠如を招き、アクセシビリティ指導の有用性を制限します。我々は WalkGPT を導入します。WalkGPT は新しいタスク「Grounded Navigation Guide」のためのピクセル・グラウンデッド LVLM であり、深度対応のアクセシビリティ指針のために、言語推論とセグメンテーションを単一のアーキテクチャに統合します。歩行者ビュー画像とナビゲーションクエリが与えられると、WalkGPT はアクセス可能な特徴と有害な特徴を区別するセグメンテーションマスクと相対深度推定を伴う対話的な応答を生成します。 本モデルは、最終的な画像トークンを空間階層全体でテキストトークンに沿って集約する Multi-Scale Query Projector (MSQP) と、提案された Region Alignment Loss に導かれ、言語埋め込みをセグメンテーション対応表現へマッピングする Calibrated Text Projector (CTP) を組み込んでいます。これらの要素は、ユーザー提供の手掛かりやアンカー点がなくても、細かなグラウンディングと深度推論を可能にし、モデルが完全で現実的なナビゲーション指針を生成できるようにします。さらに、アクセシビリティを意識した質問と深度に基づく回答を組み合わせた 41k の歩行者ビュー画像の大規模ベンチマーク PAVE を導入します。実験は、WalkGPT がグラウンデッド推論とセグメンテーションの性能を高く達成することを示しています。ソースコードとデータセットは \\href{https://sites.google.com/view/walkgpt-26/home}{project website} で利用可能です。

