要旨:
信頼性の高い作物病害検知には、多様な取得条件下でも一貫して性能を発揮するモデルが必要ですが、既存の評価はしばしば単一のアーキテクチャファミリや実験室で作成されたデータセットに焦点を当てがちです。本研究は、細分類作物病害分類の3つのモデルパラダイムの体系的実証的比較を提示します: 畳み込みニューラルネットワーク(CNN)、対照的視覚-言語モデル(VLM)、および生成型VLM。
ドメイン効果を統制した分析を可能にするため、AgriPath-LF16というベンチマークを導入します。これは、実験室画像と野外画像を明確に分離し、16品種・41疾病を網羅する111k枚の画像を含み、標準的な訓練・評価のためのバランスの取れた30kサブセットと併設しています。
すべてのモデルは、完全訓練、実験室のみ訓練、現場のみ訓練という統一プロトコルの下で訓練・評価され、マクロF1とParse Success Rate(PSR)を用いて生成モデルの信頼性を考慮します。
結果は、異なる性能プロファイルを示します。CNNはラボ画像で最高の精度を達成しますが、ドメインシフト下で劣化します。対照的視覚-言語モデルは、堅牢でパラメータ効率の高い代替手段を提供し、ドメイン横断で競争力のある性能を示します。生成型VLMは、分布のばらつきに対する最も強い耐性を示しますが、自由テキスト生成に起因する追加の故障モードも生じます。これらの知見は、アーキテクチャの選択は総合的な精度だけでなく、展開状況に応じて導くべきであることを強調します。
AgriPath: 作物病害分類におけるアーキテクチャのトレードオフを体系的に探究する
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、細粒度の作物病害分類のために、CNN、対比型ビジョン-言語モデル、生成型ビジョン-言語モデルを体系的に比較する。
- 16作物・41疾病を含む111,000枚の画像からなる AgriPath-LF16 というベンチマークを導入し、ラボと畑の画像を明示的に分離し、訓練/評価用に標準化された3万枚のサブセットを含む。
- 評価は、全データ、ラボ限定、および畑限定の訓練設定で統一プロトコルの下で実施され、マクロF1とパース成功率を用いて、精度と生成の信頼性の両方を評価する。
- 結果は、CNNがラボ環境で最高の精度を達成するが、ドメインシフトにより性能が低下する一方、対比型ビジョン-言語モデルはパラメータ数が少ないにもかかわらず堅牢なクロスドメイン性能を提供し、生成型ビジョン-言語モデルは分布の変動に最も耐性がある一方、自由テキスト生成の失敗モードを抱えることを示している。
- 本研究は、総合的な精度だけを追うのではなく、デプロイメントの文脈がアーキテクチャの選択を導くべきだと論じている。
