AI Navigate

二次元圧縮を用いた時空間予測のための効果的なデータセット蒸留

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • STemDistは、時空間時系列予測専用に設計された最初のデータセット蒸留法として導入され、従来の手法が1つの次元のみを圧縮していたという制約を解消します。
  • この手法は、時間的および空間的次元の両方の圧縮をバランス良く行い、クラスターレベルの蒸留とサブセットベースの粒度蒸留を組み合わせて、コストを抑えつつ予測性能を維持します。
  • 5つの実世界データセットでの評価は、蒸留データで学習したモデルがより速く(最大6倍)、よりメモリ効率的に(最大8倍)、予測誤差を低減できる(最大12%)ことを示しています。
  • 大規模な時空間モデルの訓練をより速く、安価にすることで、交通・天気といった実世界のアプリケーションでの大規模予測ワークフローをより実用的にする可能性があります。
  • 本研究は、蒸留がこの領域の一般的および時系列特化の蒸留法を上回ることを実証的に示しています。
時空間の時系列は、交通予測や天気予測を含む実世界のアプリケーションで広く用いられている。これらは長期間および複数の場所にわたる観測の連続であり、多次元データとして自然に表現される。予測は時空間分析の中心的なタスクであり、それに対処するために多くの深層学習手法が開発されてきた。しかし、データセットのサイズとモデルの複雑さが実務で増大し続ける中、深層学習モデルの訓練は時間と資源を要するようになっている。この課題への有望な解決策はデータセット蒸留であり、元のデータをモデル訓練のために効果的に置換できるコンパクトなデータセットを合成する。時系列分析を含む様々な領域で成功しているものの、既存のデータセット蒸留法は次元を1つだけ圧縮しており、空間と時間の次元が共同で大きなデータ量に寄与する時空間データセットには適していない。この制限に対処するため、我々は時空間時系列予測専用の初のデータセット蒸留法であるSTemDistを提案する。私たちの解決策の鍵となるアイデアは、時間的および空間的次元の両方をバランス良く圧縮し、訓練時間とメモリを削減することである。さらに、個々の地点レベルではなくクラスタレベルで蒸留を行うことで蒸留コストを削減し、この粗粒度のアプローチをサブセットベースの粒度蒸留技術で補完して予測性能を高める。5つの実世界データセットにおいて、一般的な蒸留法および時系列データセット蒸留法の両方と比較して、私たちのSTemDist法で蒸留されたデータセットはモデル訓練を (1) より速く(最大6倍) (2) よりメモリ効率的に(最大8倍)、(3) より効果的に(予測誤差を最大12%低減)できることを実証的に示している。