植物学者のように考える:意図駆動型チェーン・オブ・インクワイアリーでマルチモーダル言語モデルに挑む

arXiv cs.CL / 2026/4/24

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本研究は、実際の植物病理分野の視覚解析が複数ステップで意図に基づく推論(インテント駆動)を必要とする一方で、現行の視覚言語モデルの評価はしばしば単発の質問応答に留まっている点を指摘している。
  • 「PlantInquiryVQA」と呼ばれる新しいベンチマークと、根拠となる視覚手がかりおよび明示的な認識論的意図に条件付けられた「質問—回答」の順序付きシーケンスとして診断推論の軌跡をモデル化する「Chain of Inquiry」枠組みを提案している。
  • 専門家が監修したデータセットとして、24,950枚の植物画像と138,068件のQAペアを公開し、視覚グラウンディング、重症度ラベル、領域別の推論テンプレートで注釈付けている。
  • 最先端のマルチモーダルLLMを評価すると、視覚症状の記述はできる一方で、安全な臨床的推論や正確な診断が難しいことが示され、構造化された質問誘導(インクワイアリー)は診断正確性を高め、幻覚を減らし、推論効率を向上させると報告している。
  • 本研究はPlantInquiryVQAを、静的分類器ではなく専門家のような軌跡ベースの推論を行う診断エージェントを訓練するための基盤ベンチマークとして位置づけている。

Abstract

画像評価は通常、多段階のプロセスを通じて行われます。今日のほとんどの分野では、専門家は、構造化されたエビデンスに基づく適応的な質問によって画像を分析します。植物病理学では、植物学者が葉の画像を観察し、視覚的手がかりを特定し、診断の意図を推論し、その後、種・症状・重症度に応じて適応する的を絞った質問でさらに掘り下げます。このような構造化された探究は、正確な病気の診断と治療方針の策定にとって重要です。しかし、現在の視覚言語モデルは、単一ターンの質問応答として評価されがちです。このギャップに対処するために、私たちは植物診断における多段階・意図駆動型の視覚推論を研究するためのベンチマークであるPlantInquiryVQAを導入します。私たちは、診断の軌跡を、根拠となる視覚的手がかりと明示的な認識論的意図に条件づけられた、順序立てられた質問—回答の系列としてモデル化する「Chain of Inquiry(探究の鎖)」フレームワークを定式化します。専門家によってキュレーションされた植物画像24,950枚と、視覚的根拠付け・重症度ラベル・ドメイン固有の推論テンプレートが注釈された質問—回答ペア138,068件からなるデータセットを公開します。トップティアのマルチモーダル大規模言語モデルに対する評価では、これらが視覚症状を適切に記述できる一方で、安全な臨床的推論や正確な診断が難しいことが明らかになりました。重要なのは、質問に導かれた構造化された探究が、診断の正確性を大幅に向上させ、幻覚を減らし、推論の効率を高めるという点です。PlantInquiryVQAが、静的な分類器ではなく専門の植物学者のように推論する診断エージェントを訓練する研究を前進させるための基礎的なベンチマークとして役立つことを願っています。