アダプティブ・チャンク分割:RAGにおけるチャンク手法の選択を最適化する

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、RAGの成否を左右する文書チャンク分割に対し、「一律の手法では不十分」という課題意識のもと、文書ごとに最適なチャンク戦略を選ぶAdaptive Chunkingフレームワークを提案しています。
  • 参照の充足度(RC)、チャンク内の結束性(ICC)、文書の文脈的一貫性(DCC)、ブロック整合性(BI)、サイズ適合性(SC)という5つの「文書固有の内在評価指標」により、モデルやプロンプトを変えずにチャンク品質を独立評価できる設計にしています。
  • その実現のために、LLM-regex splitterとsplit-then-merge recursive splitterの2つの新しいチャンクャーと、適用後のターゲット整形(post-processing)も導入しています。
  • 法律・技術・社会科学など多分野のコーパスで、RAGの下流性能を大きく改善し、回答の正確性が72%(62-64%から)に向上し、成功した質問数も30%以上増加(65 vs.49)したと報告しています。
  • コードが公開されており、既存のRAGパイプラインに「文書に応じたチャンク選択」を組み込む実装上の道筋を示しています。

Abstract

Retrieval-Augmented Generation(RAG)の有効性は、文書がどのようにチャンク化されるか、すなわち索引化と検索のために小さな単位へ分割されるかに大きく依存します。しかし、一般に用いられる「ワンサイズ・フィット・オール」的なアプローチでは、多様なテキストの微妙な構造や意味論を十分に捉えられないことがしばしばあります。中核的な役割にもかかわらず、チャンク化には専用の評価フレームワークが欠けているため、下流の性能に依存せずに戦略を独立に評価・比較することが困難です。本研究では、適応的チャンク化(Adaptive Chunking)という枠組みを提案し、このパラダイムに挑戦します。これは、5つの新規な固有の文書ベース指標の集合に基づいて、各文書に最も適したチャンク化戦略を選択するフレームワークです。具体的には、References Completeness(RC)、Intrachunk Cohesion(ICC)、Document Contextual Coherence(DCC)、Block Integrity(BI)、Size Compliance(SC)を用い、主要な次元にわたってチャンク化品質を直接評価します。このフレームワークを支えるために、2つの新しいチャンクャ(LLM-regex splitter と split-then-merge recursive splitter)と、狙いを定めた後処理手法も導入します。法学、技術、社会科学という多様な領域にまたがるコーパスにおいて、指標に導かれた適応手法は、下流のRAG性能を大幅に改善します。モデルやプロンプトを変更することなく、私たちのフレームワークはRAGの結果を向上させ、回答の正確性を72%まで引き上げます(62-64%から)。また、正常に回答できた質問の数を30%以上増やします(65 対 49)。これらの結果は、補完的な一連の固有指標によって導かれる、適応的で文書を意識したチャンク化が、より頑健なRAGシステムへとつながる実用的かつ効果的な道筋を提供することを示しています。コードは https://github.com/ekimetrics/adaptive-chunking で公開されています。
広告