VFMは植物の言葉を話せるか？物体検出におけるビジョン基盤モデルのボタニカル文法

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、農業における物体検出に対して、プロンプト構築がゼロショットのビジョン基盤モデル（VFM）の性能にどのように決定的な影響を与えるかを調査し、複雑な圃場画像におけるササゲの花および莢（さや）の検出に焦点を当てる。
提案手法として、プロンプトを8つの軸に分解する体系的なプロンプト最適化フレームワークを導入し、ある検出器アーキテクチャに有益なプロンプト構造が、他の検出器では大きく性能を損なう可能性があることを示す。
4つのオープンボキャブラリ検出器（YOLO World、SAM3、Grounding DINO、OWLv2）にわたる実験により、種名だけを用いる単純なベースラインに対し、モデル固有の組合せプロンプトが大幅な改善をもたらすことを示す（例：合成の花データで約 +0.35 mAP@0.5）。
LLM駆動のプロンプト翻訳戦略を用いて、花から形態的に異なる莢へといったクロスタスクの汎化を評価し、合成で最適化されたプロンプト構造が実世界の圃場へうまく転移することを見出す。
総じて本研究は、効果的なプロンプトエンジニアリングによって、手動アノテーションなしにゼロショットVFMと教師あり検出器のギャップを大きく縮められる可能性を主張しつつ、最適なプロンプトは自明ではなく、アーキテクチャ固有であることを強調している。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

VFMは植物の言葉を話せるか？物体検出におけるビジョン基盤モデルのボタニカル文法

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵