CHOP:複数ドキュメント向けのRAGにおけるチャンクごとの文脈保持フレームワーク

arXiv cs.CL / 2026/4/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、ベクトルデータベース内に類似文書が共存する状況でRAGの検索精度が低下する問題を抑えるための、CHOPというチャンク化・再構築フレームワークを提案する。
  • CHOPはLLMを用いた反復的な評価により、チャンクの関連度を判定し、チャンクを特定のトピックやクエリタイプに結び付けながら文書を段階的に再構成する。
  • CHOPの中核は2つのモジュールで、CNM-Extractor(カテゴリ・重要名詞・モデル名を含むチャンクごとのコンパクトなシグネチャを生成)と、連続性判定モジュール(連続するチャンクが同一の文書の流れに属するかを判断して文脈の一貫性を維持する)である。
  • 各チャンクに文脈を考慮したメタデータを付与することで、類似文書間の意味的衝突を減らし、リトリーバの判別力を高める。
  • ベンチマーク実験ではランキング品質が向上し、Top-1 Hit Rate 90.77%を含む良好な結果が報告されている。

要旨: 取得拡張生成(RAG)システムは、ベクトルデータベース内に類似した文書が共存すると取得精度を失い、その結果、不必要な情報、幻覚(ハルシネーション)、そして事実誤りが生じます。この問題を軽減するために、本研究ではCHOPという枠組みを提案します。CHOPは、Large Language Models(LLM)を用いてチャンクの関連性を反復的に評価し、さらに、それらが特定のトピックやクエリタイプに関連しているかを判断することで、文書を段階的に再構築します。CHOPは2つの重要なコンポーネントを統合します。CNM-Extractorは、カテゴリ、主要名詞、モデル名を捉えるコンパクトなチャンクごとの署名を生成し、Continuity Decision Moduleは、連続するチャンクが同一の文書フローに属するかどうかを判断することで、文脈上の一貫性を保持します。各チャンクの先頭に、文脈に応じたメタデータを付与することで、CHOPは類似文書間の意味的競合を低減し、リトリーバの識別性を高めます。ベンチマークデータセットでの実験により、CHOPは取得の混乱を緩和し、高品質なナレッジベースを構築するためのスケーラブルな手法を提供できることが示されました。Top-1 Hit Rateは90.77%で、ランキング品質指標でも顕著な改善が得られています。