AgriPestDatabase-v1.0: 農業向け大規模言語モデルの学習のための構造化昆虫データセット

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • arXivのアルタイ(Altai)で、農業における害虫管理に向けた構造化昆虫データセット「AgriPestDatabase-v1.0」を提示し、9種の害虫情報をデータベースや論文から収集して専門家が検証したと述べています。
  • この構造化レポートからQ/Aペアを作成し、軽量LLM(7B以下)をLoRAでファインチューニングして、農業害虫管理のドメイン別Q/Aタスクで評価しています。
  • 初期評価ではMistral 7Bが88.9%の合格率を達成し、Qwen 2.5 7B(63.9%)、LLaMA 3.1 8B(58.7%)を大きく上回ったと報告されています。
  • BLEUが低くても埋め込み類似度(0.865)が高いことにより、表面的な語彙一致よりも意味理解・推論の質が専門タスクの成否に効く可能性を示しています。
  • 専門家データと品質管理を組み合わせ、エッジ端末向けにコンパクトで高性能な言語モデルを現場支援に活用できる可能性を示す内容です。

Abstract

農業における害虫管理は、専門家の知識に対して適時かつ正確にアクセスできることにますます依存するようになっている一方で、特に不安定/インターネットなしの接続環境で農業を行う農家においては、高品質なラベル付きデータや継続的な専門家支援が依然として限られています。同時に、AIおよびLLMの急速な発展により、コンパクトで導入可能なシステムを通じて、農業のエンドユーザに対し実用的な意思決定支援ツールを直接届ける新たな機会が生まれました。本研究は(i)構造化された昆虫情報データセットの生成、ならびに(ii)農業における害虫管理のためのエッジデバイス用途に適合させるため、軽量LLMモデル(\leq 7B)をファインチューニングして適応させること、の2点に取り組みます。テキストデータの収集は、利用可能な害虫データベースおよび選定した9種の害虫に関する公表済みの原稿から情報を調査・収集することで行いました。これらの構造化されたレポートは、その後、ドメイン専門家によってレビューおよび検証されました。これらのレポートから、モデルの学習と評価を支えるためのQ/Aペアを構築しました。LoRAベースのファインチューニング手法を複数の軽量LLMに適用し、評価を行いました。初期評価では、Mistral 7Bがドメイン固有のQ/Aタスクで88.9\%の合格率を達成し、Qwen 2.5 7B(63.9\%)およびLLaMA 3.1 8B(58.7\%)を大きく上回ることが示されました。特にMistralは、語彙の重なりが低いにもかかわらず(BLEU: 0.097)、より高いセマンティックな整合性(埋め込み類似度: 0.865)を示しており、これは、専門領域における表面的な一致よりも、セマンティックな理解と堅牢な推論のほうがタスク成功をよりよく予測することを示唆します。専門家が整理したデータ、適切に構造化されたQ/Aペア、セマンティック品質の制御、効率的なモデル適応を組み合わせることで、本研究は、農業の意思決定支援ツールを必要とする農家に対して支援を提供することに貢献し、さらに、実フィールドレベルの害虫管理に関するガイダンスのために、コンパクトで高性能な言語モデルを導入可能であることを実証しています。