CropVLM：オープンセット作物解析のためのドメイン適応型ビジョン・ランゲージモデル

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

CropVLMは、植物の形質測定における「フェノタイピングのボトルネック」（手作業が重く、観察者バイアスが入りやすい）を解消するために設計された農業向けドメイン適応型ビジョン・ランゲージモデルです。
同モデルは、自然な圃場環境で37種の作物にまたがる52,987件の手作業で選定した画像-キャプション対で学習され、Domain-Specific Semantic Alignment（DSSA）により農学用語ときめ細かな視覚特徴を結び付けます。
CropVLMは、提案されたHybrid Open-Set Localization Network（HOS-Net）により、再学習なしで自然言語の説明から未知の作物を検出できるオープンセット作物解析を可能にします。
評価では、CropVLMはゼロショット分類精度72.51%を達成し、CLIP系のベースライン7手法を上回りました。
学習済み重みとパイプラインを公開しており、CVTCropDetで49.17 AP50、熱帯果実で50.73 AP50などのベンチマーク結果は、次点手法を上回るゼロショット汎化性能を示しています。

Abstract

高スループットな植物表現型解析（観察可能な植物形質の定量計測）は、現代の育種にとって重要である一方、「表現型ボトルネック」と呼ばれる制約により進展が限られています。そこでは、手作業によるデータ収集が労力を要し、さらに観察者バイアスが生じやすいのが課題です。従来のクローズドセットのコンピュータビジョンシステムでは、この課題に十分に対処できません。なぜなら、種ごとの膨大なアノテーションを必要とし、多様な育種集団を扱う柔軟性に欠けるためです。このギャップを埋めるために、私たちはCropVLMを提案します。CropVLMは、Domain-Specific Semantic Alignment（DSSA）によって農業領域向けに適応したVision-Language Model（VLM）です。自然環境の圃場条件において37種を対象に、手作業で選定した画像キャプションペア52,987組で学習することで、CropVLMは農学用語をきめ細かな視覚的特徴へ効果的に対応付けます。さらに、Hybrid Open-Set Localization Network（HOS-Net）も導入します。これはCropVLMを統合し、再学習なしで自然言語による記述だけから未知の作物を検出できるようにするアーキテクチャです。種ごとの学習データへの依存を排除することで、CropVLMは高スループット表現型解析のためのスケーラブルな解決策を提供し、遺伝的獲得（genetic gain）を加速させ、持続可能な農業に不可欠な大規模な生物多様性研究を促進します。学習済みモデルの重みと完全なパイプラインの実装は、次で公開されています： [https://github.com/boudiafA/CropVLM](https://github.com/boudiafA/CropVLM)。包括的な評価の結果、CropVLMは72.51%のゼロショット分類精度を達成し、7つのCLIPスタイルのベースラインを上回ります。検出パイプラインは、未知の種に対するゼロショットでの汎化が優れており、CVTCropDetベンチマークで49.17 AP50、熱帯果実の種で50.73 AP50をそれぞれ達成しました。これは、次点の手法が34.89と48.58であったのに対して優位です。