表形式データ向けの構造を考慮したチャンク分割:リトリーバル拡張生成(RAG)における提案
arXiv cs.CL / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、CSVやExcelのような表形式データに対して、一般的なRAGのチャンク分割手法が非構造テキスト前提で設計されており、表の構造を活かせていないと指摘しています。
- 提案手法のSTC(Structure-aware Tabular Chunking)は、階層的なRow Treeを構築し、各行をキー・バリューのブロックとしてエンコードすることで、構造に沿った分割とマージを行います。
- STCは、トークン制約付きの分割を構造境界に整合させ、重複のない貪欲マージによって密で非重複のチャンクを生成し、行内のフィールド間の意味関係をより保ちます。
- MAUDデータセットでの評価では、再帰型ベースラインやキー・バリュー型ベースラインに比べて、チャンク数を最大40%および56%削減し、トークン利用率と処理効率も向上します。
- 検索ベンチマークでは、MRRが(ハイブリッド設定で)0.3576から0.5945へ改善し、BM25のみでもRecall@1が0.366から0.754へ大きく上昇するなど、顕著な効果が報告されています。



