表形式データ向けの構造を考慮したチャンク分割:リトリーバル拡張生成(RAG)における提案

arXiv cs.CL / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、CSVやExcelのような表形式データに対して、一般的なRAGのチャンク分割手法が非構造テキスト前提で設計されており、表の構造を活かせていないと指摘しています。
  • 提案手法のSTC(Structure-aware Tabular Chunking)は、階層的なRow Treeを構築し、各行をキー・バリューのブロックとしてエンコードすることで、構造に沿った分割とマージを行います。
  • STCは、トークン制約付きの分割を構造境界に整合させ、重複のない貪欲マージによって密で非重複のチャンクを生成し、行内のフィールド間の意味関係をより保ちます。
  • MAUDデータセットでの評価では、再帰型ベースラインやキー・バリュー型ベースラインに比べて、チャンク数を最大40%および56%削減し、トークン利用率と処理効率も向上します。
  • 検索ベンチマークでは、MRRが(ハイブリッド設定で)0.3576から0.5945へ改善し、BM25のみでもRecall@1が0.366から0.754へ大きく上昇するなど、顕著な効果が報告されています。

Abstract

CSVやExcelファイルのような表形式ドキュメントは、企業のデータ・パイプラインで広く利用されている一方で、検索拡張生成(RAG)に用いられる既存のチャンク化戦略は主に非構造化テキスト向けに設計されており、表の構造を考慮していません。そこで本研究では、行レベルの単位で動作する構造を意識した表チャンク化(STC)フレームワークを提案します。これは、階層的なRow Tree表現を構築し、各行をキー・バリュー・ブロックとして符号化することで実現します。STCは、構造境界に整合する形でトークン制約付きの分割を行い、さらに重複のない貪欲マージによって密で重複しないチャンクを生成します。この設計により、行内のフィールド間の意味的関係を保持しつつ、トークン利用率を向上させ、断片化を減らします。MAUDデータセットに対する評価では、STCは標準的な再帰的手法およびキー・バリュー方式のベースラインと比べて、それぞれチャンク数を最大40%および56%削減しながら、トークン利用率と処理効率も改善します。検索ベンチマークでは、STCはハイブリッド設定においてMRRを0.3576から0.5945へと改善し、BM25のみの検索ではRecall@1を0.366から0.754へと増加させます。これらの結果は、チャンク化の際に構造を保持することが検索性能を高めることを示しており、表形式データに対するRAGでは構造を意識したチャンク化の重要性が明らかになります。