KG-Hopper:強化学習による知識グラフ推論でコンパクトなオープンLLMを強化する

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、知識グラフのマルチホップ質問応答において、脆い手順ごとのパイプラインを削減することでコンパクトなオープンLLMを改善するための、強化学習フレームワークであるKG-Hopperを提案する。
  • 推論を孤立した逐次ステップとして実行する代わりに、KG-Hopperは7Bの「Reasoning LLM」を学習させ、知識グラフ探索と意思決定の全過程を、動的な経路探索とバックトラックを伴う単一の統合された思考ステージに埋め込む。
  • 8つのKG推論ベンチマークにわたる実験により、KG-Hopperはより大規模なマルチステップシステム(最大70B)を上回り、GPT-3.5-TurboやGPT-4o-miniといったプロプライエタリなモデルに対して競争力のある性能に匹敵することが示される。
  • 本手法はコンパクトでオープンであり、データ効率も高いと報告されており、著者らはリンクされたGitHubリポジトリを通じて公開コードを提供している。

Abstract

大規模言語モデル(LLM)は印象的な自然言語能力を示しますが、知識集約的な推論タスクではしばしば苦戦します。構造化された知識グラフ(KG)を活用する知識ベース質問応答(KBQA)は、正確なマルチホップ推論が必要になるため、この課題を典型的に示す例です。既存のアプローチでは、あらかじめ定義されたパイプラインに導かれて逐次的に推論ステップを行うことが一般的であり、そのため柔軟性が制限され、各ステップが独立して推論することでエラーが連鎖しやすくなります。これらの制約に対処するため、我々はKG-Hopperという新しい強化学習(RL)フレームワークを提案します。これは、コンパクトなオープンLLMに、単一の推論ラウンド内で統合されたマルチホップKG推論を実行する能力を与えるものです。逐次的に推論するのではなく、KGのトラバース全体と意思決定プロセスを、統一された``thinking''ステージに埋め込むように推論LLMを学習します。これにより、ステップ間の依存関係に対するグローバルな推論が可能になり、バックトラックを伴う動的な経路探索が実現されます。8つのKG推論ベンチマークに関する実験結果では、7BパラメータのLLMに基づくKG-Hopperが、大規模なマルチステップシステム(最大70B)を一貫して上回り、コンパクトでオープンかつデータ効率的であるまま、GPT-3.5-TurboやGPT-4o-miniといった独自モデルと競争力のある性能を達成したことが示されています。コードは公開されています: https://github.com/Wangshuaiia/KG-Hopper.