CNNベースのマルチイン・マルチアウトモデルによる効率的な時空間予測

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、時空間予測の効率と精度を高めるためのCNNベースのMIMO(Multi-In-Multi-Out)モデル「MIMO-ESP」を提案する。
  • 自己注意に伴う計算負荷が大きいTransformer型の課題や、局所カーネルの性質によるCNN型の限界を踏まえ、グローバル情報の扱いを強化しつつ複雑さを抑えることを目指している。
  • MIMO-ESPは時間軸を画像チャネル処理と結合せず独立に扱い、拡張(dilation)を用いて時空間の依存関係を効果的に同時考慮する。
  • 動画・交通・降水予測の3種類のベンチマークデータセットでの実験により、MIMO-ESPが既存モデルより優れ、かつ競争力のある効率を達成したことが示される。
  • 削除実験(ablation study)により、提案した構成要素が性能向上に有意に寄与していることが明らかになっている。

Abstract

近年、時空間予測におけるリカレントニューラルネットワーク(RNN)ベースのモデルの限界を克服するために、畳み込みニューラルネットワーク(CNN)またはTransformerアーキテクチャに基づくモデルが提案されている。これらのモデルは、逐次的な性質と再帰的な手法による積み重ね誤差に起因する並列化の非効率性を抑え、また高い性能を示す。とはいえ、依然としていくつかの課題がある。第一に、CNNベースのモデルはカーネルの局所的な性質のために大域的情報を考慮するのが難しく、その性能には限界がある。さらに、処理のために画像のチャネル軸と時間軸を組み合わせるため、情報が混在する。Transformerアーキテクチャに基づくモデルは自己注意(self-attention)の計算によって計算量が大きくなり、学習に長い時間を要する。本論文では、これらの制限を克服するための、新しい構造モデルであるCNNベースのMulti-In-Multi-Outモデルによる効率的な時空間予測(MIMO-ESP)を提案する。MIMO-ESPは大域的情報を考慮し、CNNにTransformerアーキテクチャを組み込むことで計算複雑性を大幅に改善する。加えて、時間軸を独立した軸として扱い、結合せずに処理し、拡張(dilation)を適用することで、時空間情報を効果的に一緒に考慮する。この構造により、MIMO-ESPは効率的で高性能となる。動画、交通、降水予測という3つの有望なベンチマークデータセットに対する大規模な実験結果は、既存モデルを上回りつつ達成された競争力のある効率によってMIMO-ESPの有用性を示している。さらに、アブレーションスタディの結果は、MIMO-ESPの構成要素の有用性を示し、提案アプローチの可能性を強調している。