AtomicRAG:原子-エンティティグラフによるリトリーバル拡張生成

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、既存のGraphRAGが固定的な知識単位としてテキストチャンクを扱うことが多く、その結果として多様な検索シナリオでの柔軟性が損なわれると指摘しています。
  • AtomicRAGでは「知識アトム」(自己完結した事実情報の細粒度な単位)として知識を表現し、粗いテキストチャンクの代わりに扱います。
  • Atom-Entityグラフではエッジを「関係が存在するかどうか」のみで表し、エラーに左右されやすいトリプルベースのエンティティリンキングへの依存を抑えます。
  • パーソナライズドPageRankと関連度ベースのフィルタリングを組み合わせ、エンティティ接続と推論の信頼性を高めます。
  • 理論分析と5つの公開ベンチマークでの実験により、AtomicRAGは強力なRAGベースラインに比べて検索精度と推論頑健性が向上することを示しています。

Abstract

近年のGraphRAG手法は、テキストのインデキシングと検索にグラフ構造を組み込むことで、知識グラフのトリプルを用いてテキスト断片同士をつなぎ、検索のカバレッジと精度を向上させています。しかしながら、テキスト断片を知識表現の基本単位として硬直的に扱うことは、複数の原子的事実を一括して束ねてしまい、多様な検索シナリオを支えるために必要な柔軟性と適応性を制限することが分かりました。さらに、トリプルに基づくエンティティリンキングは、関係抽出の誤りに敏感であり、その結果、推論経路が欠落したり誤っていたりして、最終的に検索精度を損なう可能性があります。これらの課題に対処するために、知識表現とインデキシングのための、より正確で信頼性の高いアーキテクチャであるAtom-Entity Graphを提案します。我々のアプローチでは、知識は粗い粒度のテキスト断片ではなく、知識アトムとして保存します。すなわち、事実情報の個別で自己完結した単位です。これにより、知識要素は互いに干渉することなく柔軟に再構成でき、その結果、多様なクエリの観点とのシームレスな整合が可能になります。エンティティ間のエッジは、単に関係が存在するかどうかを示します。パーソナライズドPageRankと関連性ベースのフィルタリングを組み合わせることで、正確なエンティティ接続を維持し、推論の信頼性を高めます。理論的分析と、5つの公開ベンチマークに対する実験の結果から、提案するAtomicRAGアルゴリズムは検索精度と推論の頑健性において、強力なRAGベースラインを上回ることが示されました。コード: https://github.com/7HHHHH/AtomicRAG。