AutoGraph-R1:知識グラフ構築のためのエンドツーエンド強化学習

arXiv cs.AI / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • AutoGraph-R1は、知識グラフ(KG)構築を汎用的な別工程として扱うのではなく、RAGベースの質問応答における下流タスク性能に直接最適化するフレームワークとして提案されています。
  • LLMの「構築者」を強化学習で訓練し、グラフ生成を方策学習として定式化します。報酬は、生成したグラフのRAGパイプライン内での機能的有用性に基づいて与えられます。
  • グラフを「知識キャリア」として扱う場合と、「知識インデックス」として扱う場合の2種類のタスク対応報酬関数が設計され、KGの使われ方に最適化が一致するよう工夫されています。
  • 複数のQAベンチマークで、AutoGraph-R1はタスク非依存のベースラインKGに比べて、グラフベースRAGの性能を一貫して大きく向上させることが示されています。
  • 総じて、本研究はKG構築をアプリケーション効果で評価する「クローズドループ」な考え方を実証し、「本質的に良い」グラフから「実際に役立つ」グラフへとパラダイムを転換することを示しています。

概要: 自己回帰的生成(RAG)のための効果的な知識グラフ(KG)を構築することは、質問応答(QA)システムを発展させる上で極めて重要です。しかし、その有効性は根本的な断絶によって妨げられています。すなわち、知識グラフ(KG)の構築プロセスが、下流のアプリケーションから切り離されているため、結果として最適でないグラフ構造になってしまうのです。このギャップを埋めるために、私たちはAutoGraph-R1を提案します。これは、強化学習(RL)を用いてタスク性能のためにKG構築を直接最適化する、初めての枠組みです。AutoGraph-R1は、グラフ生成をポリシー学習の問題として定式化し、RAGパイプラインにおけるグラフの機能的有用性から報酬を導くことで、LLMのコンストラクタを学習します。タスクを意識した新しい報酬関数を2種類設計し、1つは知識の運搬体としてのグラフに対するもの、もう1つは知識のインデックスとしてのグラフに対するものです。複数のQAベンチマークにおいて、AutoGraph-R1は一貫して、タスク非依存のベースライン・グラフを用いる場合よりも、大きな性能向上をグラフRAG手法にもたらします。本研究は、構築とアプリケーションの間のループを閉じることが可能であることを示し、「本質的に``良い''グラフを作る」というパラダイムから、「実証的に``役に立つ''グラフを作る」へと転換します。