MDKeyChunker:ローリングキーとキーに基づく再構成による高精度RAGのための単一コールLLMによるエンリッチメント

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • MDKeyChunkerは、Markdownドキュメントの構造(見出し・コードブロック・表・リスト)を原子的に扱う構造認識チャンク化で、意味単位の分断を抑えるRAG前処理手法を提案しています。
  • 各チャンクのメタデータ(タイトル、要約、キーワード、型付きエンティティ、仮想質問、セマンティックキー)を「単一のLLM呼び出し」で7項目まとめて抽出し、従来のフィールド別の複数パスを不要にする設計です。
  • ローリングキー辞書を文書レベル文脈として伝播し、手作業のスコアリング代替としてLLMネイティブのセマンティック整合でチャンク間の関連性を維持します。
  • セマンティックキーが一致するチャンク同士をビンパッキングでマージし、関連コンテンツを同一配置に再構成することで検索時の再現性向上を狙っています。
  • 18文書Markdownを用いた30クエリの評価では、構造チャンクにBM25を適用したConfig DがRecall@5=1.000・MRR=0.911を達成し、密な検索を含む全パイプラインでもRecall@5=0.867と報告されています。

要旨: RAGパイプラインは通常、固定サイズのチャンク分割に依存しますが、これは文書構造を無視し、意味的な単位を境界をまたいで分断し、メタデータ抽出のためにチャンクごとに複数回のLLM呼び出しを必要とします。私たちは、Markdown文書向けの3段階パイプラインであるMDKeyChunkerを提案します。これにより、(1) 見出し、コードブロック、テーブル、リストを原子的な単位として扱い、構造を考慮したチャンク分割を行い、(2) 各チャンクを1回のLLM呼び出しで、タイトル、要約、キーワード、型付きエンティティ、仮想的な質問、そしてセマンティックキーを抽出して充実させつつ、文書レベルの文脈を維持するためにローリングキー辞書を伝播し、(3) セマンティックキーが同じものをビンパッキングによってマージし、検索のために関連コンテンツを同じ場所に配置します。単一呼び出し設計により、7つのメタデータフィールドを1回のLLM呼び出しで抽出できるため、フィールドごとに別々の抽出を行う追加のパスは不要になります。ローリングキーの伝播は、手調整のスコアリングをLLMネイティブのセマンティックマッチングに置き換えます。18文書のMarkdownコーパスに対して30のクエリで行った実証評価では、Config D(構造チャンク上でのBM25)がRecall@5=1.000およびMRR=0.911を達成し、一方でパイプライン全体に対する密な検索(Config C)ではRecall@5=0.867となりました。MDKeyChunkerはPythonで実装されており、依存関係は4つで、OpenAI互換の任意のエンドポイントをサポートします。