タイトル: Wanderすることを学ぶ: 実行可能な推論によるLMMのグローバル画像地理位置推定能力の向上
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 実体化された状況における実行可能な推論のために設計された、初のオープンアクセス型グローバル地理位置ベンチマーク WanderBench を紹介します。六大陸にわたる32,000枚を超えるパノラマを、ナビゲーション可能なグラフとして整理しています。
- GeoAoT (Action of Thought) を提案します。推論と具現化された行動を結びつけ、ランドマークへ近づく、視点を調整するなど、地理位置推定の不確実性を積極的に低減する実行可能な計画を生み出します。
- 地理位置推定の正確さと難易度を考慮した地理位置に関する質問能力を同時に測定する評価プロトコルを確立し、19の大規模マルチモーダルモデルの実験により、動的環境での局在化の改善を示しています。
- 実行可能で推論駆動の地理位置推定を、実体化された視覚理解の新たなパラダイムとして定義します。
要旨: 地理位置推定は、画像の地理的位置を識別するタスクであり、豊富な世界知識と複雑な推論能力を必要とします。高度な大規模マルチモーダルモデル(LMMs)は前述の能力において卓越した性能を示してきましたが、地理位置推定タスクでの彼らの性能はまだ検証されていません。これを受けて、\textbf{WanderBench}、実体化された状況における実行可能な地理位置推定推論のための初のオープンアクセス型グローバル地理位置ベンチマークを導入します。WanderBench は六大陸にわたる32,000枚を超えるパノラマを含み、回転や移動といった物理的アクションを可能にするナビゲーション可能なグラフとして整理されており、地理位置推定を静的な認識から対話的探索へと変換します。この基盤に基づき、\textbf{GeoAoT} (Action of Thought)、すなわち \underline{Geo}location フレームワーク with \underline{A}ction of \underline{T}hough は、推論と具現化された行動を結びつけます。テキスト推論チェーンを生成する代わりに、GeoAoT はランドマークへ近づく、視点を調整するなどの実行可能な計画を生み出し、不確実性を積極的に低減します。さらに、地理位置推定の正確さと難易度を考慮した地理位置に関する質問能力を同時に測定する評価プロトコルを確立します。19 の大規模マルチモーダルモデルの実験は、GeoAoT が動的環境でより優れた局在化と強い一般化を達成することを示しています。WanderBench と GeoAoT は、実体化された視覚理解における実行可能で推論駆動の地理位置推定の新しいパラダイムを定義します。
