ProVG：言語のデカップリングによる進進的ビジュアル・グラウンディング－リモートセンシング画像のために

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ProVG（Progressive Visual Grounding）は、空間関係や物体属性といった微細な言語的手がかりに基づいて文レベルのアラインメントを改善し、リモートセンシングにおけるビジュアル・グラウンディングを対象とする。
本手法は、言語をグローバルな文脈、空間関係、物体属性にデカップリングし、その後、調査–位置特定–検証（粗いから細かいへ）という注意（coarse-to-fine）スキームを用いた進進的なクロスモーダル・モジュレータで統合する。
リモートセンシング特有の課題に対処するため、ProVGは大規模な変動に対応するためのクロススケール融合と、予測中にアラインメントを精緻化する言語ガイド付きキャリブレーション・デコーダを追加する。
参照表現理解とセグメンテーションの両方を支える統一型マルチタスクヘッドを用い、RRSIS-DとRISBenchで最先端の結果を報告している。
本研究では、グラウンディングのパイプライン全体にわたり、異なる言語コンポーネントを段階に応じて用いる方法を導入し、先行手法に対して一貫した性能向上をもたらす。

要旨: リモートセンシングの視覚的グラウンディング（RSVG）は、自然言語表現に基づいてリモートセンシング画像内の物体を局在化することを目指します。従来の手法は一般に、文レベルの視覚と言語の対応付けに依存しており、
\textit{spatial relations}（空間関係）や \textit{object attributes}（物体属性）といった、同様の特徴を持つ物体を識別するために重要な微細な言語手がかりを十分に活用するのが難しいという課題があります。重要な点として、これらの手がかりはグラウンディングの段階ごとに異なる役割を担っており、それに応じて適切に活用することで、より明示的なガイダンスを提供できるはずです。本研究では、
\textbf{ProVG} という新しいRSVGフレームワークを提案します。これは、言語表現をグローバルな文脈、空間関係、物体属性へと分解することで、局在化精度を向上させます。これらの言語的手がかりを統合するために、ProVGはシンプルかつ効果的なプログレッシブなクロスモーダル・モジュレータを用い、\textit{survey-locate-verify}（調査-特定-検証）というスキームによって、視覚的注意を動的に変調し、粗いから細かいへと段階的に視覚と言語の対応付けを可能にします。さらにProVGは、リモートセンシング画像における大規模な変動を抑えるためのクロススケール融合モジュールを組み込み、予測中のクロスモーダル対応付けを洗練するための言語ガイド付きキャリブレーション・デコーダも導入します。統一されたマルチタスク・ヘッドにより、ProVGは指示表現理解とセグメンテーションの両方のタスクをサポートできます。2つのベンチマーク、すなわち \textit{i.e.}, RRSIS-D と RISBench での広範な実験により、ProVGが既存手法を一貫して上回り、新たな最先端の性能を達成することが示されています。