VFMは植物の言葉を話せるか?物体検出におけるビジョン基盤モデルのボタニカル文法
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、農業における物体検出に対して、プロンプト構築がゼロショットのビジョン基盤モデル(VFM)の性能にどのように決定的な影響を与えるかを調査し、複雑な圃場画像におけるササゲの花および莢(さや)の検出に焦点を当てる。
- 提案手法として、プロンプトを8つの軸に分解する体系的なプロンプト最適化フレームワークを導入し、ある検出器アーキテクチャに有益なプロンプト構造が、他の検出器では大きく性能を損なう可能性があることを示す。
- 4つのオープンボキャブラリ検出器(YOLO World、SAM3、Grounding DINO、OWLv2)にわたる実験により、種名だけを用いる単純なベースラインに対し、モデル固有の組合せプロンプトが大幅な改善をもたらすことを示す(例:合成の花データで約 +0.35 mAP@0.5)。
- LLM駆動のプロンプト翻訳戦略を用いて、花から形態的に異なる莢へといったクロスタスクの汎化を評価し、合成で最適化されたプロンプト構造が実世界の圃場へうまく転移することを見出す。
- 総じて本研究は、効果的なプロンプトエンジニアリングによって、手動アノテーションなしにゼロショットVFMと教師あり検出器のギャップを大きく縮められる可能性を主張しつつ、最適なプロンプトは自明ではなく、アーキテクチャ固有であることを強調している。




