要旨: 山火事の監視には、航空プラットフォームからの迅速で実行可能な状況把握が必要である。しかし、既存の航空ビジュアル質問応答(VQA)ベンチマークは、熱測定に基づく山火事特有のマルチモーダル推論を評価していない。私たちは、RGB画像と放射計測に基づく熱データを統合した、航空による山火事監視のための大規模VQAベンチマーク「WildFireVQA」を導入する。WildFireVQAは6,097件のRGB-熱サンプルを含み、各サンプルはRGB画像、カラーマップ化された熱可視化、放射計測の熱TIFFを含み、さらに34件の質問が対応づけられている。これにより、存在・検出、分類、分布とセグメンテーション、ローカライズと方向、クロスモーダル推論、運用上の山火事インテリジェンスのための飛行計画にまたがる合計207,298件の多肢選択式質問を構成する。注釈の信頼性を向上させるために、マルチモーダル大規模言語モデル(MLLM)に基づく回答生成と、センサ駆動の決定論的なラベリング、手動による検証、さらにフレーム内およびフレーム間の一貫性チェックを組み合わせる。加えて、放射計測熱統計を用いて、RGB、熱、ならびに検索拡張(retrieval-augmented)の設定における代表的MLLMを対象とした包括的な評価プロトコルも確立する。実験の結果、タスクカテゴリ全体を通じて、現在のモデルにおける最も強いモダリティはRGBである一方、検索された熱文脈はより強力なMLLMに対して向上をもたらすことが分かった。これは、温度に基づく推論の価値と、安全性が重要な山火事シナリオにおける既存MLLMの限界の両方を示している。データセットおよびベンチマークコードは https://github.com/mobiiin/WildFire_VQA でオープンソースである。
WildFireVQA:航空火災監視のための大規模放射測定(ラジオメトリック)サーマルVQAベンチマーク
arXiv cs.CV / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- WildFireVQAは、RGBと放射測定サーマルを統合して、放射測定に基づくマルチモーダル推論を評価する航空火災監視向けの新しい大規模ベンチマークである。
- データセットには6,097件のRGB-サーマル・サンプルが含まれ、各サンプルはRGB画像、カラーマップ化したサーマル可視化、放射測定サーマルのTIFFを持ち、これに34問の多肢選択式質問が紐づくことで合計207,298問が用意されている。
- アノテーションの信頼性向上のため、マルチモーダルLLMによる回答生成に加え、センサーに基づく決定論的ラベリング、手動検証、フレーム内外の一貫性チェックを組み合わせている。
- 放射測定サーマルの統計を用いて、RGB・サーマル・リトリーバル拡張(retrieval-augmented)の各設定で代表的なMLLMを評価する包括的なプロトコルも提案されている。
- 実験ではタスク区分全体でRGBが現行モデルにとって最も強いモダリティである一方、取得したサーマル文脈は強いMLLMで改善をもたらし得ることが示され、安全性が重要な火災シーンにおける現行MLLMの限界も明らかになっている。




