AI Navigate

LLM駆動のソーシャルメディア画像からの洪水深推定: 交通レジリエンスのための機械的解釈性を備えたビジョン-ランゲージモデルフレームワーク

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • FloodLlama は、単一の街路レベル画像からリアルタイムでセンチメートル分解能の洪水深推定を行う、ファインチューニング済みのオープンソースのビジョン-ランゲージモデルです。マルチモーダルな TikTok データ・パイプラインによって支えられています。
  • 本モデルは、約190,000枚の合成データセットを用いて訓練され、7種類の車両タイプ、4種類の気象条件、41の深さレベル(0-40 cm、1 cm分解能)をカバーします。漸進的カリキュラム学習と QLoRA を用いて LLaMA 3.2-11B Vision をファインチューニングしました。
  • 34,797件の試行における評価は、深さに依存するプロンプト効果を示し、浅い深度では単純なプロンプトが優れ、チェーン・オブ・ソート推論は深い深度で性能を向上させます。MAE は 0.97 cm 未満、深部の洪水に対する Acc@5cm は 93.7% を超えます。
  • 5 段階の機械的解釈性フレームワークは、L23 層を深さエンコードの臨界転換点として特定し、選択的なファインチューニングを可能にして、学習可能パラメータを 76-80% 削減しつつ、精度を維持します。
  • Tier 3 構成は実世界での精度を 98.62% に達成し、遮蔽下での頑健性を示します。デトロイトの 676 枚の洪水フレームで検証され、リアルタイムかつクラウドソーシングによる実現可能性を示しました。

要旨: 都市部の洪水は輸送ネットワークの連続性に対する脅威を増大させていますが、現時点で動的ルーティング、電気自動車(EV)の安全性、自動運転車(AV)の運用に必要なセンチメートル分解能の街路レベルの洪水深情報をリアルタイムで提供する運用システムは存在しません。本研究はFloodLlamaを提示します。単一の街路レベル画像からの連続洪水深推定のための微調整済みのオープンソースのビジョン-言語モデル(VLM)で、TikTokデータを使用するマルチモーダルセンシングパイプラインによってサポートされます。約190,000枚の画像からなる合成データセットを生成し、7つの車両タイプ、4つの天候条件、41の深さレベル(1cm解像度で0-40 cm)をカバーします。漸進的カリキュラム学習により粗いレベルから細かいレベルへの学習が可能となり、LLaMA 3.2-11B VisionはQLoRAを使用してファインチューニングされました。34797件の試験にわたる評価は、深さ依存のプロンプト効果を示しています。単純なプロンプトは浅い洪水時にはより良く機能しますが、思考過程(CoT)推論はより深い洪水時に性能を向上させます。FloodLlamaは深い洪水に対して平均絶対誤差(MAE)を0.97 cm未満、Acc@5cmを93.7%超で達成し、浅い深さでは96.8%を超えます。5段階の機械的解釈可能性フレームワークは、深さエンコード遷移の臨界点としてL23レイヤーを特定し、訓練可能パラメータを76-80%削減しつつ精度を維持する選択的ファインチューニングを可能にします。Tier 3構成は実世界データで98.62%の精度を達成し、視覚的遮蔽下での頑健性が高いことを示します。デトロイトからの676の注釈付き洪水フレームで検証されたTikTokベースのデータパイプラインは、リアルタイムで群衆が提供する洪水感知の実現可能性を示します。提案されたフレームワークは、EVの安全性、AVの展開、そしてレジリエントな交通管理に直接的な影響を持つ、スケーラブルでインフラストラクチャーフリーのソリューションを提供します。