要旨: 知識ベースのビジュアル質問応答(KB-VQA)では、視覚と言語のモデルが画像を理解し、外部知識を用いる必要があり、特に稀少な対象(レアエンティティ)やロングテールの事実において重要になります。既存の多くの検索拡張生成(RAG)手法は、情報を逐次的に検索し、フィルタし、その後に回答を生成する固定されたパイプラインを採用しています。このような設計では、多様な質問タイプに適応することが難しくなります。さらに、検索と推論が分離されているため、モデルがいつ検索すべきか、どのようにクエリを改善すべきか、いつ停止すべきかを判断しにくくなります。その結果、取得された根拠がしばしば質問と十分に整合しません。これらの制約に対処するために、我々はKB-VQAを探索エージェントの問題として再定式化し、解決プロセスを多段階の意思決定手続きとしてモデル化します。各ステップにおいて、エージェントは自身の現在の情報状態に基づいて、4つのアクションのいずれかを選択します――回答(Answer)、画像検索(Image Retrieval)、テキスト検索(Text Retrieval)、キャプションベース(Caption-based)です。さらに、エージェントの推論プロセス、ツールの使用、および中間的な意思決定を記録する多段階の軌跡を収集するための自動化されたパイプラインを設計します。これらの軌跡は、その後、微調整(fine-tuning)のための教師信号として用いられます。InfoSeekおよびE-VQAに関する実験により、提案手法が最先端の性能を達成し、従来のベースラインを一貫して上回り、この枠組みの有効性を確認できたことが示されます。
学習して検索する:知識ベースの視覚質問応答のための意思決定ベースエージェント
arXiv cs.CV / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- InfoSeekおよびE-VQAに関する実験では、最先端の結果と、先行するベースラインに対する一貫した改善が報告されており、提案するエージェントベースの枠組みを裏付けています。


