アダプティブ・チャンク分割:RAGにおけるチャンク手法の選択を最適化する
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、RAGの成否を左右する文書チャンク分割に対し、「一律の手法では不十分」という課題意識のもと、文書ごとに最適なチャンク戦略を選ぶAdaptive Chunkingフレームワークを提案しています。
- 参照の充足度(RC)、チャンク内の結束性(ICC)、文書の文脈的一貫性(DCC)、ブロック整合性(BI)、サイズ適合性(SC)という5つの「文書固有の内在評価指標」により、モデルやプロンプトを変えずにチャンク品質を独立評価できる設計にしています。
- その実現のために、LLM-regex splitterとsplit-then-merge recursive splitterの2つの新しいチャンクャーと、適用後のターゲット整形(post-processing)も導入しています。
- 法律・技術・社会科学など多分野のコーパスで、RAGの下流性能を大きく改善し、回答の正確性が72%(62-64%から)に向上し、成功した質問数も30%以上増加(65 vs.49)したと報告しています。
- コードが公開されており、既存のRAGパイプラインに「文書に応じたチャンク選択」を組み込む実装上の道筋を示しています。
広告
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



