LLaVA-LE：月探査のための大規模言語・視覚アシスタント

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LLaVA-LE は、月面・月地下の地形特性を画像と文章から推論・記述することを目的にしたビジョン言語モデルとして提案され、惑星科学への VLM 活用を後押しする狙いがある。
月の実画像と科学的な説明を対応付けた大規模データセット LUCID（高解像度画像 96k＋詳細キャプション、さらに約 20k 画像から派生した QA 81k）を新たに整備し、学習基盤を提供する。
学習は 2 段階カリキュラム（領域特化のコンセプトアライメント→指示追従型 VQA）で LLaVA をファインチューニングし、月の地形解析に対応した評価ベンチマークも設計している。
GPT／Gemini のジャッジによる比較で、Base LLaVA に対して全体性能 3.3 倍、Stage1 モデルに対して 2.1 倍を達成し、ドメイン特化データと指示チューニングの有効性を示している。
実装コードは公開リポジトリ（GitHub）で提供されている。