MG$^2$-RAG：マルチモーダル検索拡張生成のためのマルチグラニュラリティグラフ

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMにおけるクロスモーダル推論を改善することを目的とした軽量なマルチグラニュラリティ・グラフRAGフレームワーク「MG$^2$-RAG」を提案する。
テキスト上のエンティティと視覚領域を融合し、原子的な根拠（atomic evidence）を保持した統合マルチモーダルノードを構築することで、階層的なマルチモーダル知識グラフを作る。これにより、高コストな「テキストへの翻訳（translation-to-text）」パイプラインを回避する。
MG$^2$-RAGは、密な類似度を集約し、グラフ上で関連性を伝播させるマルチグラニュラリティ・グラフ検索メカニズムを用いる。これにより、構造化されたマルチホップ推論を可能にする。
4つのマルチモーダル課題（検索、KB-VQA、推論、分類）で実験を行った結果、最先端の性能を達成しつつ、効率面で大幅な改善も報告されている：高度なグラフベース手法に比べて平均43.3×の高速化、23.9×のコスト削減。

要旨: 生成拡張（Retrieval-Augmented Generation; RAG）は、多機能な大規模言語モデル（Multimodal Large Language Models; MLLM）における幻覚を軽減するが、既存のシステムは複雑なクロスモーダル推論に苦戦している。平坦なベクトル検索は構造的な依存関係を無視しがちであり、一方で現在のグラフベース手法は、高コストな「``translation-to-text''（翻訳からテキストへ）」パイプラインに依存して微細な視覚情報を捨ててしまう。これらの制約に対処するため、我々は
\textbf{MG $^2$ -RAG}、すなわち軽量な \textbf{M}ulti-\textbf{G}ranularity \textbf{G}raph \textbf{RAG} フレームワークを提案する。MG $^2$ -RAG は、グラフ構築、モーダル融合、クロスモーダル検索を共同で改善する。MG $^2$ -RAG は、軽量なテキスト解析とエンティティ駆動の視覚的グラウンディングを組み合わせることで、階層的なマルチモーダル知識グラフを構築する。これにより、テキスト上のエンティティと視覚領域を、原子的な根拠を保持した統一的なマルチモーダル・ノードへ融合できる。この表現に基づき、密な類似度を集約し、関連性をグラフ全体へ伝播させることで、構造化されたマルチホップ推論を支援するマルチグラニュラリティ・グラフ検索メカニズムを導入する。代表的な4つのマルチモーダルタスク（すなわち、検索、知識ベースVQA、推論、分類）にまたがる大規模実験により、MG $^2$ -RAG は、一貫して最先端の性能を達成しつつ、高度なグラフベースの枠組みと比べてグラフ構築のオーバーヘッドを平均 43.3 $\times$ の高速化、23.9 $\times$ のコスト削減で抑えられることを示す。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

MG$^2$-RAG：マルチモーダル検索拡張生成のためのマルチグラニュラリティグラフ

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険