要約: 多モーダル大規模言語モデル(MLLMs)を農業に適用することは、現状、重要なトレードオフのため停滞しています。既存の文献は堅牢なモデル開発と評価に必要な大規模な農業データセットを欠き、同時に最先端のモデルは多様な分類体系を横断して推論するために必要な検証済みの専門知識を欠いています。これらの課題に対処するため、Vision-to-Verified-Knowledge(V2VK)パイプラインを提案します。これは視覚キャプション生成とウェブを活用した科学情報検索を統合し、自律的にAgriMMベンチマークを生成する新規の生成AI駆動アノテーションフレームワークであり、訓練データを検証済みの植物病理学文献に根拠づけることで生物学的幻覚を効果的に排除します。AgriMMベンチマークには3,000を超える農業クラスと60万7千を超えるVQAが含まれ、微細な植物種識別、植物病害の症状認識、作物の個体数カウント、熟度評価など複数のタスクにまたがります。この検証可能なデータを活用して、AgriChatを提示します。AgriChatは数千以上の農業クラスにわたる広範な知識を示し、広範な説明を伴う詳細な農業評価を提供する専門的なMLLMです。多様なタスク、データセット、評価条件における広範な評価は、現行の農業MLLMの能力と限界を明らかにすると同時に、AgriChatが内部および外部ベンチマークを含む他のオープンソースモデルより優れた性能を示すことを実証します。結果は、視覚的ディテールを維持しつつウェブ検証済みの知識と組み合わせることが、堅牢で信頼できる農業AIへの信頼できる道であることを裏付けます。コードとデータセットは以下で公開されています:https://github.com/boudiafA/AgriChat
AgriChat: 農業画像理解のためのマルチモーダル大規模言語モデル
arXiv cs.CV / 2026/3/19
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は Vision-to-Verified-Knowledge (V2VK) を紹介します。これは生成AI主導のアノテーションパイプラインで、検証済みの植物病理学文献にトレーニングデータを根拠づけることにより、農業用マルチモーダルモデルのハルシネーションを低減します。
- AgriMM は、3,000を超える農業クラスと、607,000件を超える VQA(視覚質問応答)を横断するタスクを含むベンチマークです。対象タスクは植物種の同定、病徴認識、作物のカウント、熟度評価などを含みます。
- この検証済みデータを活用して、AgriChat は数千のクラスにわたる幅広い農業知識と、詳細で説明可能な評価を提供する専門的なマルチモーダル LLM として開発されました。
- 著者らは多様なタスクとデータセットで AgriChat を評価し、オープンソースモデルより高い性能を示すとともに、リッチな視覚情報とウェブ検証済み知識を組み合わせることで信頼性の高い農業AIの価値を強調しています。コードとデータセットは公開されています。