植物学者のように考える:意図駆動型チェーン・オブ・インクワイアリーでマルチモーダル言語モデルに挑む
arXiv cs.CL / 2026/4/24
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本研究は、実際の植物病理分野の視覚解析が複数ステップで意図に基づく推論(インテント駆動)を必要とする一方で、現行の視覚言語モデルの評価はしばしば単発の質問応答に留まっている点を指摘している。
- 「PlantInquiryVQA」と呼ばれる新しいベンチマークと、根拠となる視覚手がかりおよび明示的な認識論的意図に条件付けられた「質問—回答」の順序付きシーケンスとして診断推論の軌跡をモデル化する「Chain of Inquiry」枠組みを提案している。
- 専門家が監修したデータセットとして、24,950枚の植物画像と138,068件のQAペアを公開し、視覚グラウンディング、重症度ラベル、領域別の推論テンプレートで注釈付けている。
- 最先端のマルチモーダルLLMを評価すると、視覚症状の記述はできる一方で、安全な臨床的推論や正確な診断が難しいことが示され、構造化された質問誘導(インクワイアリー)は診断正確性を高め、幻覚を減らし、推論効率を向上させると報告している。
- 本研究はPlantInquiryVQAを、静的分類器ではなく専門家のような軌跡ベースの推論を行う診断エージェントを訓練するための基盤ベンチマークとして位置づけている。



