| 作ってきたプロジェクトを共有します。Sentinel-2の画像を使い、衛星上でVision-Language Modelを直接動かす、完全なエンドツーエンドの山火事予防パイプラインです。 面白い設計上の制約は、モデルの品質ではありません。帯域幅です。地上にあるフロンティアモデルだと、軌道ごとに巨大なマルチスペクトル画像の行列をダウンリンクする必要があり、スケールしません。そこで、オンボードで動かせるほど小さい450MのVLMを使うと状況が変わります。宇宙空間で推論し、ダウンリンクするのはJSONのリスクプロファイルだけにします。 パイプラインはRGB(B4-B3-B2)とSWIR(B12-B8-B4)のタイルを組み合わせます。SWIRが重要な信号です。植物の水分ストレスを捉えます。これは、火災の実際の燃料指標です。VLMは、単なるピクセルの統計ではなく、シーン全体の理解を行い、構造化された PoCでは、オンボードのパイプラインをローカルでシミュレーションしています:
この記事では、問題の切り取り方とシステム設計を扱います。次の記事では、データ収集とラベリング、評価(evals)、微調整を扱います。というのも、既製の状態では450MのVLMはOpus級ではなく、そのギャップを意図的に埋める必要があるからです。 コードはLiquid AI Cookbook(下記リンク)にあります。この種の地理空間ユースケースで、オンデバイスまたはオンエッジ推論について人々がどう考えているのか気になります。同様の作業を帯域に制約のある配備で行っている人はいますか? 詳細な書き起こし: https://github.com/Liquid4All/cookbook/tree/main/examples/wildfire-prevention コード: https://github.com/Liquid4All/cookbook/tree/main/examples/wildfire-prevention [link] [comments] |
衛星では最先端モデルが動かせない:450MのオンボードVLM(Sentinel-2+LFM2.5-VL)によるエンドツーエンドの山火事検知パイプライン
Reddit r/LocalLLaMA / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 記事では、衛星でのフロンティア級ビジョン言語モデルの実行は、モデル品質よりも帯域幅がボトルネックであると述べています。なぜなら軌道ごとに巨大な多スペクトル画像を地上へダウンリンクする必要があり、スケールしないためです。
- 著者は、衛星内で推論して「JSONのリスクプロファイル」だけを下ろすことで、Sentinel-2と約450MのオンボードVLMを使った山火事検知のエンドツーエンド・パイプラインを提案しています。
- パイプラインはRGB(B4-B3-B2)とSWIR(B12-B8-B4)を組み合わせ、山火事の燃料条件に関係する植生の水分ストレスを示す主要な信号としてSWIRを重視しています。
- ローカルPoCでは、軌道動作をエミュレートしてAWS Element84のSTACカタログから実データのSentinel-2タイルを取得する「SimSat」を使い、VLMはllama-server経由でローカル実行し、SQLiteに結果を保存してStreamlitで可視化します。
- 著者は、450M VLMはそのままだと十分な性能(例:Opus級)に届かないため、データ収集・ラベリング・評価・ファインチューニングでギャップを埋める必要があるとしています。



