ベクトルベース検索におけるセマンティック・エンタングルメント:エージェント型RAGシステム向けの形式的枠組みと文脈条件付きの非絡み(ディスエンタングル)・パイプライン

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文では、ベクトルベース検索で「セマンティック・エンタングルメント」が起きる条件を示し、複数トピックが連続した文章として混在すると標準的な埋め込みにより意味的に異なる内容が近傍領域に重なり得ると述べています。
  • エンタングルメントを「Entanglement Index(EI)」として形式化し、EIが高いほどコサイン類似度によるTop-K検索で到達できる精度が本質的に制約されると主張しています。
  • これに対処するため、著者らは埋め込み前に文書を再構成する4段階の前処理フレームワーク「Semantic Disentanglement Pipeline(SDP)」を提案しています。
  • さらに、運用上の利用パターンに基づいて文書構造を形作る「文脈条件付き前処理」と、エージェントの性能に応じて構造を適応させる連続的フィードバック機構も導入します。
  • 実世界のヘルスケア向け企業ナレッジベース(2,000件超、約25サブドメイン)で、固定トークン分割では約32%だったTop-K精度がSDPで約82%に向上し、平均EIは0.71から0.14へ低下しました。

要旨: 生成補助検索(Retrieval-Augmented Generation; RAG)システムは、文脈に適した根拠を取得するために、ベクトル表現の幾何学的性質に依存しています。情報源ドキュメントが、連続したテキスト内に複数のトピックを相互に挿入している場合、標準的なベクトル化は、意味的に異なる内容が重なり合う近傍領域を占める埋め込み空間を生成します。私たちはこの条件を「セマンティック・エンタングルメント(semantic entanglement、意味の絡まり)」と呼びます。エンタングルメントを、埋め込み空間におけるトピック間の重なりをモデル相対的に測る指標として形式化し、定量的な代理指標としてエンタングルメント・インデックス(Entanglement Index; EI)を定義します。コサイン類似度による取得(cosine similarity retrieval)において、EIが高いほど達成可能なTop-K取得精度が制約されると論じます。これに対処するために、埋め込みの前に文書を再構成する4段階の前処理フレームワークであるセマンティック・ディスエンタングルメント・パイプライン(Semantic Disentanglement Pipeline; SDP)を導入します。さらに、文書構造を運用上のパターンに基づいて形成する、文脈条件付き前処理(context-conditioned preprocessing)を提案し、エージェントの性能に応じて文書構造を適応させる連続的なフィードバック機構も提案します。実世界の企業向けヘルスケア知識ベース(約25のサブドメインにまたがる2000件超の文書)でSDPを評価しました。固定トークン分割(fixed-token chunking)では約32%だったTop-K取得精度が、SDPでは約82%に向上し、平均EIは0.71から0.14へ低下しました。エンタングルメントがRAGの失敗を完全に説明するとは主張しませんが、これは、下流の最適化ではベクトル空間に符号化された後に確実に修正できない、別種の前処理失敗モードを捉えるものだ、と主張します。