MDKeyChunker：ローリングキーとキーに基づく再構成による高精度RAGのための単一コールLLMによるエンリッチメント

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

MDKeyChunkerは、Markdownドキュメントの構造（見出し・コードブロック・表・リスト）を原子的に扱う構造認識チャンク化で、意味単位の分断を抑えるRAG前処理手法を提案しています。
各チャンクのメタデータ（タイトル、要約、キーワード、型付きエンティティ、仮想質問、セマンティックキー）を「単一のLLM呼び出し」で7項目まとめて抽出し、従来のフィールド別の複数パスを不要にする設計です。
ローリングキー辞書を文書レベル文脈として伝播し、手作業のスコアリング代替としてLLMネイティブのセマンティック整合でチャンク間の関連性を維持します。
セマンティックキーが一致するチャンク同士をビンパッキングでマージし、関連コンテンツを同一配置に再構成することで検索時の再現性向上を狙っています。
18文書Markdownを用いた30クエリの評価では、構造チャンクにBM25を適用したConfig DがRecall@5=1.000・MRR=0.911を達成し、密な検索を含む全パイプラインでもRecall@5=0.867と報告されています。

要旨: RAGパイプラインは通常、固定サイズのチャンク分割に依存しますが、これは文書構造を無視し、意味的な単位を境界をまたいで分断し、メタデータ抽出のためにチャンクごとに複数回のLLM呼び出しを必要とします。私たちは、Markdown文書向けの3段階パイプラインであるMDKeyChunkerを提案します。これにより、(1) 見出し、コードブロック、テーブル、リストを原子的な単位として扱い、構造を考慮したチャンク分割を行い、(2) 各チャンクを1回のLLM呼び出しで、タイトル、要約、キーワード、型付きエンティティ、仮想的な質問、そしてセマンティックキーを抽出して充実させつつ、文書レベルの文脈を維持するためにローリングキー辞書を伝播し、(3) セマンティックキーが同じものをビンパッキングによってマージし、検索のために関連コンテンツを同じ場所に配置します。単一呼び出し設計により、7つのメタデータフィールドを1回のLLM呼び出しで抽出できるため、フィールドごとに別々の抽出を行う追加のパスは不要になります。ローリングキーの伝播は、手調整のスコアリングをLLMネイティブのセマンティックマッチングに置き換えます。18文書のMarkdownコーパスに対して30のクエリで行った実証評価では、Config D（構造チャンク上でのBM25）がRecall@5=1.000およびMRR=0.911を達成し、一方でパイプライン全体に対する密な検索（Config C）ではRecall@5=0.867となりました。MDKeyChunkerはPythonで実装されており、依存関係は4つで、OpenAI互換の任意のエンドポイントをサポートします。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

MDKeyChunker：ローリングキーとキーに基づく再構成による高精度RAGのための単一コールLLMによるエンリッチメント

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer