SynopticBench：将来の天気予報ディスカッション生成を評価するためのビジョン・ランゲージ・モデル評価

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、全米（米国本土）における全米気象局（NWS）の「Area Forecast Discussion」テキスト1,367,041件を、500mb高度・2m気温・850mb風速に対応する画像とペアにした大規模データセットSynopticBenchを提案しています。
大気は時空間スケールの異なる変化を伴うカオスな系であるため、気象データからの文章生成が特に難しいと述べています。
著者らは、シノプティック（大規模気象）現象の記述テキストの質を評価するための新しい枠組みSPACE（Synoptic Phenomena Alignment and Coverage Evaluation）を提示しています。
最先端のVLMを用いた実験により、この領域では既存の評価指標が結果に敏感であることが示され、天気・気候の文章生成に向けたより良い評価の必要性が示唆されます。

要旨: 近年の視覚言語モデル（VLM）の進歩は、画像キャプション付け、レポート生成、視覚認識といった数多くの複雑なマルチモーダル課題において、顕著な改善をもたらしてきました。とはいえ、気象データからテキストを生成することは非常に困難です。大気は、さまざまな空間スケールおよび時間スケールで急速に変化する混沌としたシステムだからです。大気現象の複雑さを踏まえると、既存のVLMが天気予報データに対して有効であることを、検証可能な形で定量化することが重要です。本研究では、SynopticBench を提案します。これは、高品質なデータセットであり、米国本土における気象予報について、全米気象局（National Weather Service）が作成した「Area Forecast Discussions（地域予報ディスカッション）」の1,367,041件のテキストサンプルを、500mb ゲオポテンシャル高度、2メートル温度、850mb 風速の画像とペアにして構成したものです。さらに、Synoptic Phenomena Alignment and Coverage Evaluation（SPACE）という新しい評価枠組みも提案します。これは、総観規模の天気現象に関するテキスト記述の品質を効果的に推定するために用いることができます。本領域における最先端のVLMを用いた予報ディスカッション生成のための大規模な実験により、この分野における既存の評価指標の感度が示され、総観的な天気および気候のテキスト生成に関するさらなる探究が可能になります。