Vision-Languageのためのスキル条件付き視覚ジオロケーション

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存手法の暗黙的なパラメトリック・メモリに依存するものよりも、より構造化された地理的推論を追加する、学習不要（training-free）のビジョン言語ジオロケーション枠組みGeoSkillを提案する。
GeoSkillは、人間の専門家によるジオロケーション軌跡を、原子的な自然言語スキルへ変換することでSkill-Graphを初期化し、推論が明示的なスキル表現によって導かれるようにする。
自律的進化（Autonomous Evolution）では、より大きなモデルを用いてウェブ由来の画像座標ペアに対して複数の推論ロールアウトを実行し、成功した軌跡と失敗した軌跡の両方に基づいてスキルを合成・剪定することでバイアスを低減する。
GeoRCにおける実験では、GeoSkillが地理推定精度と推論の忠実性の両方を向上させつつ、外部データセットに対して強い汎化性能を維持することを示す。
本手法は、パラメータ更新なしで自己進化と、新規で検証可能なスキルの創発を可能にし、現実世界の地理知識をより適切に捉えることを目指すと主張している。