要旨: LVLMsは画像理解と視覚推論において重大な課題に直面し、重要な知覚の失敗を招く。画像操作コードを組み込んだビジュアルプロンプトは、これらの問題を緩和する有望な可能性を示しています。有望な方向として浮上している一方、従来のビジュアルプロンプト生成法は、LVLMの知覚失敗の根本原因を診断し緩和するのではなく、ツールの選択に焦点を当ててきました。LVLMsの不透明性と予測不可能性のため、最適な視覚プロンプトは経験的な実験を通じて発見される必要があり、これらは手動の人間による試行錯誤に頼ってきました。
私たちはタスクごとの視覚プロンプトを発見するための自動的な意味論的探索フレームワークを提案します。私たちのアプローチは、エージェント駆動の実験を通じて多様でありながら効率的な探索を可能にし、人間の介入を最小限に抑え、サンプルごとの生成の非効率性を避けます。SEVEXという名のセマンティック探索アルゴリズムを導入します。これにより、視覚プロンプト探索の二つの主要な課題、(1) 長くて低レベルなコードによる注意散漫、(2) 視覚プロンプトの広大で未構造の探索空間に対処します。具体的には、抽象的なアイデア空間を探索空間として活用し、新規性誘導選択アルゴリズムと意味的フィードバック駆動の発想プロセスを組み合わせ、経験的な結果に基づいて多様な視覚プロンプトを効率的に探索します。
SEVEXを、LVLMの知覚を評価するよう設計された BlindTestおよびBLINKのベンチマークで評価します。実験結果は、SEVEXがタスク精度、推論効率、探索効率、探索安定性の四つの面でベースライン手法を著しく上回ることを示しています。特筆すべきは、本フレームワークが従来のツール使用を超える高度で直感に反する視覚戦略を発見する点であり、自動化されたタスク別視覚プロンプトによってLVLMの知覚を向上させる新しいパラダイムを提供します。
セマンティック探索による視覚的プロンプトの発見
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LVLMの認識性能を向上させ、手動の試行錯誤への依存を低減するため、タスク特異的な視覚プロンプトを発見する自動的なセマンティック探索フレームワーク「SEVEX」を提案する。
- SEVEXは、長大な低レベルコードと広大で未整理な探索空間といった課題に対して、抽象的なアイデア空間、新規性を指向した選択アルゴリズム、および意味的フィードバック駆動の着想生成プロセスを用いて、人手の介入を最小限に抑えつつプロンプトを効率的に探索する。
- BlindTestおよびBLINKベンチマークでの評価は、SEVEXがタスク精度、推論効率、探索効率および安定性を向上させることを示し、従来のツールの使用を超える洗練された直感に反する視覚戦略を明らかにする。
- 本研究は、自動化されたタスク別の視覚プロンプトを通じてLVLMの認識を高める新たなパラダイムを提示し、LVLMツール設計と研究に広範な影響を与える。
