MG$^2$-RAG:マルチモーダル検索拡張生成のためのマルチグラニュラリティグラフ

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMにおけるクロスモーダル推論を改善することを目的とした軽量なマルチグラニュラリティ・グラフRAGフレームワーク「MG$^2$-RAG」を提案する。
  • テキスト上のエンティティと視覚領域を融合し、原子的な根拠(atomic evidence)を保持した統合マルチモーダルノードを構築することで、階層的なマルチモーダル知識グラフを作る。これにより、高コストな「テキストへの翻訳(translation-to-text)」パイプラインを回避する。
  • MG$^2$-RAGは、密な類似度を集約し、グラフ上で関連性を伝播させるマルチグラニュラリティ・グラフ検索メカニズムを用いる。これにより、構造化されたマルチホップ推論を可能にする。
  • 4つのマルチモーダル課題(検索、KB-VQA、推論、分類)で実験を行った結果、最先端の性能を達成しつつ、効率面で大幅な改善も報告されている:高度なグラフベース手法に比べて平均43.3×の高速化、23.9×のコスト削減。

要旨: 生成拡張(Retrieval-Augmented Generation; RAG)は、多機能な大規模言語モデル(Multimodal Large Language Models; MLLM)における幻覚を軽減するが、既存のシステムは複雑なクロスモーダル推論に苦戦している。平坦なベクトル検索は構造的な依存関係を無視しがちであり、一方で現在のグラフベース手法は、高コストな「``translation-to-text''(翻訳からテキストへ)」パイプラインに依存して微細な視覚情報を捨ててしまう。これらの制約に対処するため、我々は
\textbf{MG^2-RAG}、すなわち軽量な \textbf{M}ulti-\textbf{G}ranularity \textbf{G}raph \textbf{RAG} フレームワークを提案する。MG^2-RAG は、グラフ構築、モーダル融合、クロスモーダル検索を共同で改善する。MG^2-RAG は、軽量なテキスト解析とエンティティ駆動の視覚的グラウンディングを組み合わせることで、階層的なマルチモーダル知識グラフを構築する。これにより、テキスト上のエンティティと視覚領域を、原子的な根拠を保持した統一的なマルチモーダル・ノードへ融合できる。この表現に基づき、密な類似度を集約し、関連性をグラフ全体へ伝播させることで、構造化されたマルチホップ推論を支援するマルチグラニュラリティ・グラフ検索メカニズムを導入する。代表的な4つのマルチモーダルタスク(すなわち、検索、知識ベースVQA、推論、分類)にまたがる大規模実験により、MG^2-RAG は、一貫して最先端の性能を達成しつつ、高度なグラフベースの枠組みと比べてグラフ構築のオーバーヘッドを平均 43.3\times の高速化、23.9\times のコスト削減で抑えられることを示す。