事前学習はどこで行うべきか？—事前学習データの多様性が地理空間基盤モデルの性能に与える影響の調査

arXiv cs.LG / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、地理空間基盤モデルの下流性能に対して、事前学習データの地理的構成と多様性がどのように影響するかを体系的に調べ、これまであまり研究されてこなかった点を補うものです。
研究チームは、グローバルおよび大陸別の事前学習データセットを作成し、下流評価もグローバル／ローカルの両面で実施した結果、ヨーロッパで事前学習したデータが他の事前学習設定よりも優れた性能を示したと報告しています。
なぜ性能差が生じるのかを説明するために、10種類の事前学習データセットを大陸・バイオーム・土地被覆・スペクトル値といった多様性の次元ごとに分析しました。
その結果、スペクトル多様性が下流性能と強く相関する一方、他の多様性要因は弱い相関しか示さないことを明らかにし、高性能な事前学習データを設計する際に考慮すべき新たな重要な次元を示しました。
著者らは、7つの新しい事前学習データセット、事前学習済みモデル、実験フレームワークをオープンソース化し、さらなる研究を促しています。

概要: 新しい地理空間の基盤モデルは、新しいモデルアーキテクチャと事前学習データセットを導入しており、多くの場合、データの多様性の異なる概念を用いてサンプリングされます。性能の違いは主にモデルアーキテクチャや入力モダリティによって説明される一方で、事前学習データセットの役割はほとんど研究されていません。この研究ギャップに対処するために、事前学習データの地理的構成がモデルの下流性能にどのように影響するかについて、体系的な調査を行いました。私たちは、全球および大陸ごとの事前学習データセットを作成し、それらを全球および大陸ごとの下流データセットで評価しました。その結果、ヨーロッパの事前学習データセットは、全球およびローカルの下流評価の両方において、全球的および大陸固有の事前学習データセットよりも優れていることが分かりました。事前学習データセットの下流性能に影響する要因を調べるために、大陸、バイオーム、土地被覆、スペクトル値における多様性を用いた10の事前学習データセットを解析しました。その結果、強く性能と相関していたのはスペクトル多様性のみであり、他は弱い相関しか示しませんでした。この発見は、高性能な事前学習データセットを作成する際に考慮すべき多様性の新たな次元を確立します。7つの新しい事前学習データセット、事前学習済みモデル、および実験フレームワークを https://github.com/kerner-lab/pretrain-where でオープンソースとして公開します。