KG-Reasoner: エンドツーエンドのマルチホップ知識グラフ推論のための強化モデル

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論LLMの固定された段階的パイプラインではなく、単一の統一された「思考」フェーズ内でマルチホップ知識グラフ（KG）推論を行うエンドツーエンドの枠組みであるKG-Reasonerを提案する。
強化学習（RL）によってLLMを訓練し、KGのトラバーサルを内部化できるようにするとともに、推論経路を動的に探索し、必要に応じてバックトラックして整合性を維持し、中間情報を保持できるようにする。
8つのマルチホップで知識集約的なベンチマークにわたる実験により、KG-Reasonerが最先端手法と比較して競争力、またはそれ以上の性能を達成することが示される。
著者らは公開リポジトリを通じてオープンソースコードを提供しており、他の研究者や実務者がこの枠組みを検証し、さらに発展させていくことを可能にする。

要旨: 大規模言語モデル（LLM）は自然言語の理解および生成において強力な能力を示しますが、知識集約的な推論には苦戦します。構造化知識グラフ（KG）は、外部知識を表現する効果的な形式であり、古典的な知識ベース質問応答（KBQA）タスクの性能向上に広く用いられてきました。しかし、複雑なクエリに対してKG上で精密なマルチホップ推論を行うことは、依然として非常に困難です。既存の多くのアプローチは、推論プロセスを固定されたパイプラインによって実行される一連の孤立したステップへと分解します。ある程度有効ではあるものの、このような設計は推論の柔軟性を制約し、意思決定の全体的な流れを分断してしまい、しばしば一貫性の欠如や、前段のステップからの重要な中間情報の喪失につながります。本論文では、Reasoning LLMの統一された「思考（thinking）」フェーズの中にマルチステップ推論を統合するエンドツーエンドの枠組みKG-Reasonerを提案します。強化学習（RL）により、LLMはKG探索（トラバーサル）過程を内在化するよう訓練され、必要に応じて推論経路を動的に探索し、バックトラックを行えるようになります。8つのマルチホップかつ知識集約的な推論ベンチマークに関する実験により、KG-Reasonerが最先端手法と比べて競争力のある、あるいはそれを上回る性能を達成することを示します。コードはリポジトリで公開されています: https://github.com/Wangshuaiia/KG-Reasoner.