LLaVA-LE:月探査のための大規模言語・視覚アシスタント
arXiv cs.CV / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LLaVA-LE は、月面・月地下の地形特性を画像と文章から推論・記述することを目的にしたビジョン言語モデルとして提案され、惑星科学への VLM 活用を後押しする狙いがある。
- 月の実画像と科学的な説明を対応付けた大規模データセット LUCID(高解像度画像 96k+詳細キャプション、さらに約 20k 画像から派生した QA 81k)を新たに整備し、学習基盤を提供する。
- 学習は 2 段階カリキュラム(領域特化のコンセプトアライメント→指示追従型 VQA)で LLaVA をファインチューニングし、月の地形解析に対応した評価ベンチマークも設計している。
- GPT/Gemini のジャッジによる比較で、Base LLaVA に対して全体性能 3.3 倍、Stage1 モデルに対して 2.1 倍を達成し、ドメイン特化データと指示チューニングの有効性を示している。
- 実装コードは公開リポジトリ(GitHub)で提供されている。
広告




