要旨: 正確で解釈可能な植物病害の診断は、現実の農業において視覚言語モデル(VLM)にとって依然として大きな課題です。私たちはAgriChainを導入します。これは、多様な作物と病理を対象とする、約11,000枚の専門家がキュレーションした葉画像からなるデータセットであり、各画像は (i) 病気のラベル、(ii) 校正された信頼度スコア(High/Medium/Low)、(iii) 専門家によって検証された思考連鎖(CoT)の根拠、のそれぞれに対応付けられています。下書きとなる説明は最初にGPT-4oによって生成され、その後、標準化された記述子(例:病斑の色、縁の状態、分布)を用いて、プロの農業エンジニアにより検証されました。私たちはAgriChain上でQwen2.5-VL-3Bを微調整し、病気を同時に予測し、視覚に根差した推論を生成する専門モデルであるAgriChain-VL3Bを得ました。1,000枚のテストセットにおいて、CoTによる教師あり学習モデルはトップ1精度73.1%を達成しました(macro F1 = 0.466;weighted F1 = 0.655)。Gemini 1.5 Flash、Gemini 2.5 Pro、GPT-4o Miniを含む強力なベースラインを上回ります。生成された説明は専門家の推論と非常に密接に一致しており、重要な視覚的手がかりを一貫して参照します。これらの結果は、専門家によって検証された推論の教師あり学習が、精度と解釈可能性の両方を大きく向上させることを示しています。さらに、汎用のマルチモーダルモデルと人間の専門知識とのギャップを埋め、持続可能な農業のための、信頼でき、世界的に展開可能なAIの発展に貢献します。データセットとコードは以下で公開されています: https://github.com/hazzanabeel12-netizen/agrichain
AgriChain:解釈可能な農業用ビジョン言語モデルのための、視覚的に根拠づけられた専門家による検証済み推論
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はAgriChainを提案する。これは複数の作物と病害にまたがる専門家が厳選した葉画像からなる約11,000枚の農業データセットであり、各画像には病害の種類、較正済みの信頼度、そして専門家が検証したチェーン・オブ・ソート(CoT)による推論根拠がラベル付けされている。
- 説明文は当初GPT-4oによって作成され、その後、病変の色・輪郭・分布などの標準化された視覚的記述子を用いて、プロの農業エンジニアが検証することで、信頼性と解釈可能性を高めた。
- 専用モデルであるAgriChain-VL3Bは、このデータセットを用いてQwen2.5-VL-3Bからファインチューニングされ、病害を共同で予測するとともに、視覚的に根拠づけられた推論を生成する。
- 1,000枚のテストセットにおいて、CoTによる教師ありモデルはトップ1精度73.1%(マクロF1 0.466、重み付きF1 0.655)を達成し、Gemini系の手法やGPT-4o Miniを含むベースラインを上回る。
- 本研究は、専門家が検証した推論の教師あり学習が、精度と、ヒトの専門家による説明との整合(アラインメント)を双方とも改善することを主張し、データセットとコードを公開している。




