Graph RAG (KET-RAG) を用いたマルチホップ質問応答の実験を一連行いました。結論として 検索 はほぼ 解決済み であり、文脈の中に答えはおおよそ 77% から 91% の頻度で含まれていることが分かりました。 ボトルネックは推論 です:誤答の 73% から 84% は、情報が欠けていることではなく、モデルが点と点を結びつけられないことに起因します。
小さなモデルは、文脈の中に答えがすぐそばにある場合でも、推論でつまずきます。
ギャップを埋める2つの推論時の工夫を発見しました:
- 回答前に質問をグラフクエリパターンへ分解する構造化された思考の連鎖
- グラフ探索によって取得済みの文脈を約60%圧縮(追加のLLM呼び出しなし)
最終結果:Llama 3.1 8B にこれらの補強を施した場合、素の Llama 3.3 70B と同等またはそれ以上の性能を、約12分の1のコストで達成します(groq)。HotpotQA、MuSiQue、そして 2WikiMultiHopQA(各500問)でテスト済みです。
また、LightRAG でも機能することを確認しました。単一のシステムだけでなく。
[リンク] [コメント]




