衛星では最先端モデルが動かせない：450MのオンボードVLM（Sentinel-2＋LFM2.5-VL）によるエンドツーエンドの山火事検知パイプライン

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

記事では、衛星でのフロンティア級ビジョン言語モデルの実行は、モデル品質よりも帯域幅がボトルネックであると述べています。なぜなら軌道ごとに巨大な多スペクトル画像を地上へダウンリンクする必要があり、スケールしないためです。
著者は、衛星内で推論して「JSONのリスクプロファイル」だけを下ろすことで、Sentinel-2と約450MのオンボードVLMを使った山火事検知のエンドツーエンド・パイプラインを提案しています。
パイプラインはRGB（B4-B3-B2）とSWIR（B12-B8-B4）を組み合わせ、山火事の燃料条件に関係する植生の水分ストレスを示す主要な信号としてSWIRを重視しています。
ローカルPoCでは、軌道動作をエミュレートしてAWS Element84のSTACカタログから実データのSentinel-2タイルを取得する「SimSat」を使い、VLMはllama-server経由でローカル実行し、SQLiteに結果を保存してStreamlitで可視化します。
著者は、450M VLMはそのままだと十分な性能（例：Opus級）に届かないため、データ収集・ラベリング・評価・ファインチューニングでギャップを埋める必要があるとしています。

Frontier models can't run on satellites. Here's an end-to-end wildfire detection pipeline using a 450M on-board Vision-Language Model (Sentinel-2 + LFM2.5-VL)

作ってきたプロジェクトを共有します。Sentinel-2の画像を使い、衛星上でVision-Language Modelを直接動かす、完全なエンドツーエンドの山火事予防パイプラインです。

面白い設計上の制約は、モデルの品質ではありません。帯域幅です。地上にあるフロンティアモデルだと、軌道ごとに巨大なマルチスペクトル画像の行列をダウンリンクする必要があり、スケールしません。そこで、オンボードで動かせるほど小さい450MのVLMを使うと状況が変わります。宇宙空間で推論し、ダウンリンクするのはJSONのリスクプロファイルだけにします。

パイプラインはRGB（B4-B3-B2）とSWIR（B12-B8-B4）のタイルを組み合わせます。SWIRが重要な信号です。植物の水分ストレスを捉えます。これは、火災の実際の燃料指標です。VLMは、単なるピクセルの統計ではなく、シーン全体の理解を行い、構造化されたrisk_levelに加えて内訳も出力します。

PoCでは、オンボードのパイプラインをローカルでシミュレーションしています：