CHOP：複数ドキュメント向けのRAGにおけるチャンクごとの文脈保持フレームワーク

arXiv cs.CL / 2026/4/20

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、ベクトルデータベース内に類似文書が共存する状況でRAGの検索精度が低下する問題を抑えるための、CHOPというチャンク化・再構築フレームワークを提案する。
CHOPはLLMを用いた反復的な評価により、チャンクの関連度を判定し、チャンクを特定のトピックやクエリタイプに結び付けながら文書を段階的に再構成する。
CHOPの中核は2つのモジュールで、CNM-Extractor（カテゴリ・重要名詞・モデル名を含むチャンクごとのコンパクトなシグネチャを生成）と、連続性判定モジュール（連続するチャンクが同一の文書の流れに属するかを判断して文脈の一貫性を維持する）である。
各チャンクに文脈を考慮したメタデータを付与することで、類似文書間の意味的衝突を減らし、リトリーバの判別力を高める。
ベンチマーク実験ではランキング品質が向上し、Top-1 Hit Rate 90.77%を含む良好な結果が報告されている。

要旨: 取得拡張生成（RAG）システムは、ベクトルデータベース内に類似した文書が共存すると取得精度を失い、その結果、不必要な情報、幻覚（ハルシネーション）、そして事実誤りが生じます。この問題を軽減するために、本研究ではCHOPという枠組みを提案します。CHOPは、Large Language Models（LLM）を用いてチャンクの関連性を反復的に評価し、さらに、それらが特定のトピックやクエリタイプに関連しているかを判断することで、文書を段階的に再構築します。CHOPは2つの重要なコンポーネントを統合します。CNM-Extractorは、カテゴリ、主要名詞、モデル名を捉えるコンパクトなチャンクごとの署名を生成し、Continuity Decision Moduleは、連続するチャンクが同一の文書フローに属するかどうかを判断することで、文脈上の一貫性を保持します。各チャンクの先頭に、文脈に応じたメタデータを付与することで、CHOPは類似文書間の意味的競合を低減し、リトリーバの識別性を高めます。ベンチマークデータセットでの実験により、CHOPは取得の混乱を緩和し、高品質なナレッジベースを構築するためのスケーラブルな手法を提供できることが示されました。Top-1 Hit Rateは90.77%で、ランキング品質指標でも顕著な改善が得られています。

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

CHOP：複数ドキュメント向けのRAGにおけるチャンクごとの文脈保持フレームワーク

要点

関連記事

Black Hat USA

ブラックハット・アジア

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer