表形式データ向けの構造を考慮したチャンク分割：リトリーバル拡張生成（RAG）における提案

arXiv cs.CL / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、CSVやExcelのような表形式データに対して、一般的なRAGのチャンク分割手法が非構造テキスト前提で設計されており、表の構造を活かせていないと指摘しています。
提案手法のSTC（Structure-aware Tabular Chunking）は、階層的なRow Treeを構築し、各行をキー・バリューのブロックとしてエンコードすることで、構造に沿った分割とマージを行います。
STCは、トークン制約付きの分割を構造境界に整合させ、重複のない貪欲マージによって密で非重複のチャンクを生成し、行内のフィールド間の意味関係をより保ちます。
MAUDデータセットでの評価では、再帰型ベースラインやキー・バリュー型ベースラインに比べて、チャンク数を最大40%および56%削減し、トークン利用率と処理効率も向上します。
検索ベンチマークでは、MRRが（ハイブリッド設定で）0.3576から0.5945へ改善し、BM25のみでもRecall@1が0.366から0.754へ大きく上昇するなど、顕著な効果が報告されています。

Abstract

CSVやExcelファイルのような表形式ドキュメントは、企業のデータ・パイプラインで広く利用されている一方で、検索拡張生成（RAG）に用いられる既存のチャンク化戦略は主に非構造化テキスト向けに設計されており、表の構造を考慮していません。そこで本研究では、行レベルの単位で動作する構造を意識した表チャンク化（STC）フレームワークを提案します。これは、階層的なRow Tree表現を構築し、各行をキー・バリュー・ブロックとして符号化することで実現します。STCは、構造境界に整合する形でトークン制約付きの分割を行い、さらに重複のない貪欲マージによって密で重複しないチャンクを生成します。この設計により、行内のフィールド間の意味的関係を保持しつつ、トークン利用率を向上させ、断片化を減らします。MAUDデータセットに対する評価では、STCは標準的な再帰的手法およびキー・バリュー方式のベースラインと比べて、それぞれチャンク数を最大40%および56%削減しながら、トークン利用率と処理効率も改善します。検索ベンチマークでは、STCはハイブリッド設定においてMRRを0.3576から0.5945へと改善し、BM25のみの検索ではRecall@1を0.366から0.754へと増加させます。これらの結果は、チャンク化の際に構造を保持することが検索性能を高めることを示しており、表形式データに対するRAGでは構造を意識したチャンク化の重要性が明らかになります。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/4Dailyインサイトを見る →

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

Dev.to

表形式データ向けの構造を考慮したチャンク分割：リトリーバル拡張生成（RAG）における提案

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」