要旨: 生成拡張(Retrieval-Augmented Generation; RAG)システムは、検索品質、レイテンシ、運用コストのバランスを取るために、効果的な文書チャンク化戦略に強く依存している。固定サイズ、ルールベース、あるいは完全にエージェント的なチャンク化といった従来のアプローチは、多くの場合、高いトークン消費、冗長なテキスト生成、限定的なスケーラビリティ、そして特に大規模なウェブコンテンツの取り込みにおける低いデバッグ容易性といった問題を抱える。本論文では、ウェブベースの文書を対象として特別に設計された、新しいコスト効率の高いチャンク化フレームワークである Web Retrieval-Aware Chunking(W-RAC)を提案する。W-RAC は、テキスト抽出を意味的なチャンク計画から切り離し、解析されたウェブコンテンツを、構造化され、IDでアドレス可能なユニットとして表現する。そして、テキスト生成ではなく、検索を意識したグルーピングの意思決定にのみ、大規模言語モデル(LLM)を活用する。これによりトークン使用量が大幅に削減され、幻覚(ハルシネーション)のリスクが解消され、システムの可観測性が向上する。さらに、実験的分析とアーキテクチャの比較により、W-RAC が従来のチャンク化アプローチと同等、またはそれ以上の検索性能を達成しつつ、チャンク化に関連する LLM コストを 1 桁(オーダー)低減することを示す。
効率的でコスト効率の高い検索拡張生成(RAG)システムのためのWeb Retrieval-Aware Chunking(W-RAC)
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RAGシステムにおける重要なボトルネックであるドキュメントのチャンク分割に焦点を当てる。特に、大規模なWebインジェストでは、検索品質、レイテンシ、コストの間で必要となるトレードオフが問題となる。
- 提案手法はWeb Retrieval-Aware Chunking(W-RAC)であり、テキスト抽出とセマンティックなチャンク計画を分離する。解析済みのWebコンテンツを、構造化され、IDでアドレス可能な単位へ変換することで実現する。
- W-RACは、チャンク文の生成ではなく「検索に配慮したグルーピングの意思決定」のみにLLMを使用する。これにより、トークン消費を削減し、チャンク分割時の幻覚(ハルシネーション)リスクを排除することを狙う。
- 実験およびアーキテクチャ比較の結果、W-RACは、従来の固定サイズ・ルールベース、または完全にエージェント型のチャンク分割手法と比べて、同等以上の検索性能を達成することが示される。
- 著者らは、チャンク分割に関連するLLMコストをオーダー(桁)で1/10に削減しつつ、チャンク分割プロセスの可観測性・デバッグ容易性も向上できると報告している。