視覚質問応答をマルチモーダルLLMとチェーン・オブ・クエスチョン誘導のRAGで強化する

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、外部知識が不可欠なオープンドメインの視覚質問応答(VQA)を、マルチモーダルLLMとリトリーバル・オーグメンテッド・ジェネレーション(RAG)をより効果的に統合することで改善することを目指します。
  • 連鎖的な思考(Chain-of-Thought)推論と、視覚質問分解(Visual Question Decomposition)を組み合わせた論理プロンプト戦略「CoVQD」を提案し、関連する知識の取得をより適切に導くことを狙います。
  • CoVQDに基づき、新たな枠組み「CoVQD-guided RAG(CgRAG)」を提示し、マルチモーダル推論中により首尾一貫した包括的な外部知識を参照できるようにします。
  • E-VQA、InfoSeek、OKVQA の各ベンチマークで実験を行い、複雑なクロスドメインVQAにおける性能、一般化、信頼性の向上を示しています。
  • 総じて、視覚・テキストの構造化された推論と知識獲得を結び付けることで、マルチモーダルLLMの回答の堅牢性を高める取り組みとして位置づけられます。

要旨: マルチモーダル研究と深層学習の進歩により、マルチモーダル大規模言語モデル(MLLMs)は、幅広いマルチモーダル課題に対する強力なパラダイムとして登場している。視覚と言語の研究における中核的な課題であるビジュアル質問応答(VQA)は、外部知識が不可欠であるオープンドメイン設定を中心に、性能を向上させるためにMLLMsをますます活用するようになってきた。本研究では、構造化された推論と知識獲得をより効果的に統合することで、検索ベースのVQAをさらに強化することを目指す。我々は、Chain-of-Thought(CoT)推論とVisual Question Decomposition(VQD)を融合し、CoVQDと呼ぶ論理的プロンプト戦略を導入することで、検索をMLLM推論にとってより正確で関連性の高い知識へと導く。さらに、この考えに基づき、新しい枠組みであるCoVQD-guided RAG(CgRAG)を提案する。これにより、構造化された視覚・テキストの推論によるガイダンスの恩恵を受けつつ、より包括的で首尾一貫した外部知識にMLLMがアクセスできるようになり、複雑な領域横断型VQAシナリオにおける汎化性能と信頼性が向上する。E-VQA、InfoSeek、OKVQAベンチマークに対する大規模な実験により、提案手法の有効性が示される。