QChunker: マルチエージェント討論を介したドメインRAGのための質問意識テキストチャンク化の学習

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はQChunkerを提案し、RAGパラダイムを理解-検索-増強へと再構成する。これはテキストをセグメンテーションと知識補完を通じてチャンク化し、意味的整合性を確保する。
  • Hal Gregersen の「Questions Are the Answer」理論に触発され、質問を洞察の触媒とする原理のもと、質問アウトライン生成器、テキスト分割器、整合性審査者、知識補完者の4つの専門的要素から成るマルチエージェントディベートフレームワークを設計する。
  • このアプローチは4.5万件のデータセットを作成し、小規模言語モデルへの移植能力を実証するとともに、チャンク品質評価の新しい直接評価指標ChunkScoreを導入する。
  • 文書アウトラインとマルチパスサンプリングを用いて複数の候補チャンクを生成し、ChunkScoreで最適解を選択することで、QChunkerは複数ドメインにわたり、より論理的一貫性と情報豊富なチャンクを実現する。
要旨: RAG(Retrieval-Augmented Generation)の有効性の上限は、本質的に知識ベース内のテキストチャンクの意味的整合性と情報の粒度によって制約されている。これらの課題に対処するため、本論文はQChunkerを提案し、RAGパラダイムを「検索増強」から「理解-検索-増強」へと再構成する。まず、QChunkerはテキストチャンクをテキストのセグメンテーションと知識補完の複合タスクとしてモデル化し、テキストチャンクの論理的一貫性と完全性を保証する。これには、Hal Gregersen の「Questions Are the Answer」理論に着想を得て、質問を深い洞察の触媒とする原理のもと、質問アウトライン生成器、テキスト分割器、整合性審査者、知識補完者の4つの専門的コンポーネントから成るマルチエージェントディベートフレームワークを設計する。このフレームワークは、質問が洞察の触媒になるという原理のもとで機能する。このパイプラインを通じて、我々は高品質な4.5万件のデータセットを構築し、この能力を小規模言語モデルへ移植することに成功した。さらに、長い評価チェーンと既存のチャンク分割評価手法の低効率、下流のQAタスクに過度に依存する問題に対処するため、ChunkScoreという新しい直接評価指標を導入する。理論的および実験的検証のいずれも、ChunkScoreがテキストチャンクの品質を直接かつ効率的に識別できることを示している。さらに、テキスト分割フェーズでは文書アウトラインを用いたマルチパスサンプリングにより複数の候補チャンクを生成し、ChunkScoreを用いて最適解を選択する。4ドメインにわたる広範な実験結果は、QChunkerが前述の課題を効果的に解決し、RAGにより論理的に一貫性があり情報量に富むテキストチャンクを提供できることを示している。