M-RAG: RAGをより高速に、より強力に、そしてより効率的にする

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストのチャンク分割によって生じがちな断片化、検索ノイズ、非効率といった問題に対処する、Retrieval-Augmented Generation（RAG）のチャンクレス（chunk-free）検索戦略であるM-RAGを提案する。
粗いテキストチャンクを取得する代わりに、M-RAGは構造化されたキー・バリュー（k-v）のメタマーカーを抽出する。軽量で意図に整合した検索キーで照合し、生成のためのより豊かなバリューを得る。
目的は、検索の表現力の高い品質を維持しつつ、生成から検索表現を切り離して、効率的かつ安定したクエリ—キー類似度のマッチングを可能にすることにある。
LongBenchのサブタスクに対する実験では、トークン予算が異なる場合でも、M-RAGがチャンクベースのRAGベースラインより性能を向上させることが示され、特に低リソース環境での改善が大きい。
追加分析により、M-RAGは高い効率で、より回答に適した根拠（evidence）を取得できることが示され、チャンクベース手法に対するスケーラブルで頑健な代替として位置付けられる。

Abstract

生成拡張（RAG: Retrieval-Augmented Generation）は、大規模言語モデル（LLM）の信頼性を高めるための手法として広く採用されるようになっています。しかし、RAGシステムは、検索ユニットを構築するためにテキストの分割（chunking）に依存する検索戦略に対して敏感であり、その結果として情報の断片化、検索ノイズ、効率の低下がしばしば生じます。最近の研究では、RAG自体の必要性が疑問視されており、長いコンテキストを扱えるLLMなら、多段階の検索パイプラインを、全文書を直接処理することで不要にできる可能性があると主張されています。それでも、コンテキスト容量を増やすだけでは、関連性フィルタリング、証拠の優先順位付け、回答に含まれる情報の切り出しといった課題は解決されません。そこで本研究では、新しい「チャンクフリー（Chunk-free）」検索戦略であるM-RAGを提案しました。粗視的なテキストチャンクを取得する代わりに、M-RAGは、構造化されたk-v分解のメタマーカーを抽出します。これにより、検索には軽量で意図に整合した検索キーを用い、生成には情報量の豊富な価値を用います。この設定において、M-RAGは、表現力を損なうことなく、効率的かつ安定したクエリキー類似度のマッチングを可能にします。LongBenchのサブタスクに対する実験結果は、M-RAGが、さまざまなトークン予算において、チャンクベースのRAGベースラインを上回ることを示しており、特に低資源設定で顕著です。さらに詳細な分析により、M-RAGは高効率で、より回答に適した証拠を取得できることが明らかになりました。これは、検索表現と生成を切り離すことの有効性を裏付け、提案手法が、既存のチャンクベース手法に対するスケーラブルで堅牢な代替であることを示しています。