WikiSeeker:知識ベースのビジュアル質問応答における視覚と言語モデルの役割を再考する

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存手法が主に画像を検索キーとして用いることによる限界に対処する、知識ベースのビジュアル質問応答(KB-VQA)向けのマルチモーダル Retrieval-Augmented Generation(RAG)フレームワーク「WikiSeeker」を提案する。
  • WikiSeekerは、Vision-Language Models(VLMs)を2つの特化したエージェントとして再定義する。すなわち、入力画像に基づいてテキストクエリを書き換え、多モーダル検索を改善するRefiner(リファイナー)と、信頼できる検索済みコンテキストをLLMへルーティングして回答生成するタイミングを判断するInspector(インスペクターである)。
  • 検索が信頼できない場合、InspectorはシステムがVLM内部の知識へフォールバックできるようにする。これにより、検索失敗への対応力を高めた、分離型の生成戦略を実現する。
  • EVQA、InfoSeek、M2KRに対する実験では、検索精度と回答品質の双方で大幅な改善を伴う最先端の結果が報告されている。
  • 著者らは、コードをGitHubで公開する予定であると述べており、再現性の向上とフレームワークの採用可能性を支える。

要旨: マルチモーダル検索拡張生成(RAG)は、知識ベースのビジュアル質問応答(KB-VQA)に対して非常に効果的なパラダイムとして登場してきました。近年の進展にもかかわらず、従来の手法は依然として主に画像を検索キーとして利用しており、また、視覚言語モデル(VLM)の役割を見落としたり誤って配置したりすることが多く、その可能性を十分に活用できていません。本論文では、これらのギャップを埋める新しいマルチモーダルRAGフレームワークであるWikiSeekerを提案します。具体的には、マルチモーダル検索器を提案し、VLMの役割を再定義することで、これらの問題に対処します。VLMを単なる回答生成器として用いるのではなく、VLMに2つの専門エージェント、すなわちRefiner(改良者)とInspector(検査者)を割り当てます。Refinerは、入力画像に応じてテキストクエリを書き換えるというVLMの能力を利用し、マルチモーダル検索器の性能を大幅に向上させます。Inspectorは、信頼できる検索コンテキストを選択的に別のLLMへルーティングすることで、分離された生成戦略を可能にします。一方で、検索が信頼できない場合には、VLMの内部知識に依存して応答を生成します。EVQA、InfoSeek、M2KRに対する大規模な実験により、WikiSeekerが最先端の性能を達成していること、さらに検索精度と回答品質の両方で大幅な改善が見られることを示します。コードは https://github.com/zhuyjan/WikiSeeker で公開します。