要旨: 太陽光発電(PV)電力予測は、電力系統の運用(ディスパッチ)や市場参加において重要な役割を果たす。PV発電は天候条件や雲の動きに非常に敏感であるため、正確な予測には、複数の情報源にまたがる複雑な時空間的依存関係を効果的にモデル化することが必要となる。近年の研究はAIベースの予測手法を進展させてきたものの、多くは、時間的観測、衛星画像、そしてテキストによる天気情報を、統一された枠組みの中で融合できていない。本論文では、多モーダルPV電力予測のための大規模言語モデル主導の枠組みであるSolar-VLMを提案する。まず、モダリティ固有のエンコーダを開発し、異種入力から補完的な特徴を抽出する。時系列エンコーダはパッチベースの設計を採用し、各サイトでの多変量観測から時間的パターンを捉える。視覚エンコーダはQwenベースのビジョンバックボーンを土台としており、衛星画像から雲量(雲の覆い)に関する情報を抽出する。テキストエンコーダは、テキストによる記述から過去の天候特性を蒸留する。次に、地理的に分散したPVステーション間における空間的依存関係を捉えるために、クロスサイト特徴融合メカニズムを導入する。具体的には、グラフ学習者が、K近傍(KNN)グラフの上に構築されたグラフ注意機構(graph attention network)を用いて、ステーション間の相関をモデル化し、さらにクロスサイト注意(cross-site attention)モジュールによって、サイト間の情報交換を適応的に促進する。最後に、中国北部の一地方における8つのPVステーションのデータに対して行った実験により、提案した枠組みの有効性が示される。提案モデルはhttps://github.com/rhp413/Solar-VLMにて公開されている。
Solar-VLM: 追加型ソーラー発電予測のためのマルチモーダル・ビジョン言語モデル
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、天候や雲に強く依存する条件下での太陽光発電(PV)出力予測の精度向上を目的とした、マルチモーダル・ビジョン言語モデルの枠組み「Solar-VLM」を提案する。
- それは、PVサイトでの多変量時系列データ、雲量を表す衛星画像、天気の履歴を記述したテキストの3種類の入力を統合する。モダリティ固有のエンコーダとして、パッチベースの時系列エンコーダ、Qwenベースの視覚エンコーダ、テキストエンコーダを用いる。
- 地理的に分散したPVステーション間の空間的な依存関係を捉えるために、Solar-VLMはクロスサイト融合設計を追加する。具体的には、K近傍ステーションのグラフ上でのグラフ注意(graph attention)に加え、情報交換を適応的に行うためのクロスサイト注意(cross-site attention)を用いる。
- 中国北部の8つのPVステーションでの実験により、この枠組みの有効性が示されており、著者らは公開GitHubでの実装も提供している。




