SatBLIP：衛星画像からの文脈理解と特徴抽出に向けた視覚言語学習

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SatBLIPは、粗い脆弱性指標を超えて農村部のリスク文脈をより良く理解することを目的とした、衛星特化の視覚言語学習フレームワークです。
この手法は、コントラスト学習による画像-テキスト整合と、衛星の意味論に合わせたブートストラップ型キャプション生成を組み合わせ、郡（カウンティ）レベルの社会的脆弱性指数（SVI）を予測します。
GPT-4oを用いて衛星タイルの構造化記述（屋根の種類・状態、住宅や庭の属性、緑地、道路状況など）を生成し、その後、衛星適応したBLIPモデルを微調整して未見画像のキャプションを作ります。
生成されたキャプションはCLIPで符号化され、注意機構を通じてLLM由来埋め込みと融合され、空間集約のもとでSVI推定を行います。
SHAPにより、屋根の詳細、道路幅、植生、車両やオープンスペースなどの重要属性が一貫して予測に効くことを示し、農村部のリスク要因の解釈可能なマッピングを可能にします。