構造化プロンプティングを用いたマルチホップQAで70Bと同等の性能をLlama 8Bが達成、ファインチューニングなし

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

マルチホップQAのリトリーバルは実質的に解決されており、文脈内で答えが見つかるのは77%から91%の頻度。
ボトルネックは推論であり、誤答の73%から84%は情報の欠落ではなく、点と点を結びつけられなかったことに起因する。
推論時の2つの工夫がこのギャップを縮める：答える前に質問をグラフクエリパターンへ分解する構造化された思考の連鎖、そしてグラフ探索を用いて取得した文脈を約60%に圧縮すること（追加のLLM呼び出しなし）。
Llama 3.1 8Bはこれらの拡張を備えることで、3つのベンチマーク（HotpotQA、MuSiQue、2WikiMultiHopQA）で素のLlama 3.3 70Bと同等以上の性能を達成し、約12分の1のコスト（groq）での実行が可能であることを示している。LightRAGでも動作することが確認されている。

Graph RAG (KET-RAG) を用いたマルチホップ質問応答の実験を一連行いました。結論として検索はほぼ 解決済み であり、文脈の中に答えはおおよそ 77% から 91% の頻度で含まれていることが分かりました。 ボトルネックは推論 です：誤答の 73% から 84% は、情報が欠けていることではなく、モデルが点と点を結びつけられないことに起因します。

小さなモデルは、文脈の中に答えがすぐそばにある場合でも、推論でつまずきます。

ギャップを埋める2つの推論時の工夫を発見しました: