構造化プロンプティングを用いたマルチホップQAで70Bと同等の性能をLlama 8Bが達成、ファインチューニングなし

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンTools & Practical UsageModels & Research

要点

  • マルチホップQAのリトリーバルは実質的に解決されており、文脈内で答えが見つかるのは77%から91%の頻度。
  • ボトルネックは推論であり、誤答の73%から84%は情報の欠落ではなく、点と点を結びつけられなかったことに起因する。
  • 推論時の2つの工夫がこのギャップを縮める:答える前に質問をグラフクエリパターンへ分解する構造化された思考の連鎖、そしてグラフ探索を用いて取得した文脈を約60%に圧縮すること(追加のLLM呼び出しなし)。
  • Llama 3.1 8Bはこれらの拡張を備えることで、3つのベンチマーク(HotpotQA、MuSiQue、2WikiMultiHopQA)で素のLlama 3.3 70Bと同等以上の性能を達成し、約12分の1のコスト(groq)での実行が可能であることを示している。LightRAGでも動作することが確認されている。

Graph RAG (KET-RAG) を用いたマルチホップ質問応答の実験を一連行いました。結論として 検索 はほぼ 解決済み であり、文脈の中に答えはおおよそ 77% から 91% の頻度で含まれていることが分かりました。 ボトルネックは推論 です:誤答の 73% から 84% は、情報が欠けていることではなく、モデルが点と点を結びつけられないことに起因します。

小さなモデルは、文脈の中に答えがすぐそばにある場合でも、推論でつまずきます。

ギャップを埋める2つの推論時の工夫を発見しました:

  • 回答前に質問をグラフクエリパターンへ分解する構造化された思考の連鎖
  • グラフ探索によって取得済みの文脈を約60%圧縮(追加のLLM呼び出しなし)

最終結果:Llama 3.1 8B にこれらの補強を施した場合、素の Llama 3.3 70B と同等またはそれ以上の性能を、約12分の1のコストで達成します(groq)。HotpotQA、MuSiQue、そして 2WikiMultiHopQA(各500問)でテスト済みです。

また、LightRAG でも機能することを確認しました。単一のシステムだけでなく。

arXiv: https://arxiv.org/abs/2603.14045

投稿者 /u/Greedy-Teach1533
[リンク] [コメント]