概要:
Vision-Language Models (VLMs) の出現は、検索を補助する生成 (RAG) および推論駆動型の推定を通じた、グローバルな画像の地理的位置特定の新しいパラダイムを導入しました。 しかし、RAG 手法は検索データベースの品質に制約され、推論駆動型アプローチは画像の位置特性を内部化できず、非効率で固定深度の推論パスに依存して幻像を増加させ、精度を低下させます。 これらの制限を克服するため、地理的位置推定における深い推論に対する適性を定量化する最適化された位置特性スコアを導入します。 この指標を用いて、複雑な視覚シーンの拡張推論経路を豊富に含む、位置特性階層化推論データセット Geo-ADAPT-51K を作成します。 この基盤の上に、適応的推論深度、視覚的グラウンディング、および階層的地理的正確さを調整するカスタマイズされた報酬関数を備えた、二段階の Group Relative Policy Optimization (GRPO) カリキュラムを提案します。 私たちのフレームワーク Geo-ADAPT は、適応的な推論ポリシーを学習し、複数の地理位置特定ベンチマークで最先端性能を達成し、適応的かつ効率的に推論することで幻像を大幅に低減します。
視覚言語モデルを用いた画像の地理定位における位置性ガイド型適応推論
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、地理定位タスクにおける深層推論の適用性を定量化する最適化された位置性スコアを導入します。
- 複雑な場面に対する拡張推論経路を備えた、位置性階層化推論データセット Geo-ADAPT-51K を提示します。
- 適応推論の深さ、視覚的グラウンディング、および階層的地理精度を調整するため、カスタマイズされた報酬を備えた2段階の Group Relative Policy Optimization (GRPO) カリキュラムを提案します。
- Geo-ADAPTフレームワークは適応的推論ポリシーを学習し、複数の地理定位ベンチマークで最先端の成果を達成するとともに、幻覚を大幅に低減します。
- 本研究は、リトリーバルベースおよび固定深度推論アプローチの限界に対処し、視覚言語モデルを用いたより効率的で正確な画像の地理定位を実現します。

