ガイド付き入力とChain-of-Thought推論でマルチモーダルモデルにマルチスペクトルデータを活用する方法
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、RGBのみで学習された大規模マルチモーダルモデル(LMM)に対して、マルチスペクトル画像を推論パイプラインに組み込むことで利用可能にするトレーニング不要の手法を提案している。
- 非RGB入力をLMMが学習した視覚空間へ適応させ、ドメイン固有の情報に加えてChain-of-Thoughtスタイルの推論を指示として注入する。
- Gemini 2.5を用いた実証では、代表的なリモートセンシングのベンチマークにおいてゼロショット性能が大きく向上する結果が示されている。
- 著者らは、高価な専用の「マルチスペクトル×マルチモーダル」モデルを学習せずに、汎用LMMを専門のセンサ入力へ活用できる可能性を示し、地理空間分野の実務に利点があると主張する。



