CropVLM:オープンセット作物解析のためのドメイン適応型ビジョン・ランゲージモデル
arXiv cs.CV / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- CropVLMは、植物の形質測定における「フェノタイピングのボトルネック」(手作業が重く、観察者バイアスが入りやすい)を解消するために設計された農業向けドメイン適応型ビジョン・ランゲージモデルです。
- 同モデルは、自然な圃場環境で37種の作物にまたがる52,987件の手作業で選定した画像-キャプション対で学習され、Domain-Specific Semantic Alignment(DSSA)により農学用語ときめ細かな視覚特徴を結び付けます。
- CropVLMは、提案されたHybrid Open-Set Localization Network(HOS-Net)により、再学習なしで自然言語の説明から未知の作物を検出できるオープンセット作物解析を可能にします。
- 評価では、CropVLMはゼロショット分類精度72.51%を達成し、CLIP系のベースライン7手法を上回りました。
- 学習済み重みとパイプラインを公開しており、CVTCropDetで49.17 AP50、熱帯果実で50.73 AP50などのベンチマーク結果は、次点手法を上回るゼロショット汎化性能を示しています。




