学習して検索する：知識ベースの視覚質問応答のための意思決定ベースエージェント

arXiv cs.CV / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

InfoSeekおよびE-VQAに関する実験では、最先端の結果と、先行するベースラインに対する一貫した改善が報告されており、提案するエージェントベースの枠組みを裏付けています。

要旨: 知識ベースのビジュアル質問応答（KB-VQA）では、視覚と言語のモデルが画像を理解し、外部知識を用いる必要があり、特に稀少な対象（レアエンティティ）やロングテールの事実において重要になります。既存の多くの検索拡張生成（RAG）手法は、情報を逐次的に検索し、フィルタし、その後に回答を生成する固定されたパイプラインを採用しています。このような設計では、多様な質問タイプに適応することが難しくなります。さらに、検索と推論が分離されているため、モデルがいつ検索すべきか、どのようにクエリを改善すべきか、いつ停止すべきかを判断しにくくなります。その結果、取得された根拠がしばしば質問と十分に整合しません。これらの制約に対処するために、我々はKB-VQAを探索エージェントの問題として再定式化し、解決プロセスを多段階の意思決定手続きとしてモデル化します。各ステップにおいて、エージェントは自身の現在の情報状態に基づいて、4つのアクションのいずれかを選択します――回答（Answer）、画像検索（Image Retrieval）、テキスト検索（Text Retrieval）、キャプションベース（Caption-based）です。さらに、エージェントの推論プロセス、ツールの使用、および中間的な意思決定を記録する多段階の軌跡を収集するための自動化されたパイプラインを設計します。これらの軌跡は、その後、微調整（fine-tuning）のための教師信号として用いられます。InfoSeekおよびE-VQAに関する実験により、提案手法が最先端の性能を達成し、従来のベースラインを一貫して上回り、この枠組みの有効性を確認できたことが示されます。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

学習して検索する：知識ベースの視覚質問応答のための意思決定ベースエージェント

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer