RAGはなぜ精度が出ないのか?4手法を実務データで比較し最適構成を決めた

Zenn / 4/3/2026

💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage

Key Points

  • RAGで精度が伸びない主因を整理し、実務データを用いて4つの手法を同一条件下で比較して効果を検証している。
  • 比較の結果、「どの段階(検索・再ランキング・プロンプト/生成・後処理)に手を入れると改善が出やすいか」を実データに基づいて見定めている。
  • 各手法の得意/不得意(質問タイプやデータ特性に対する相性)を踏まえ、汎用的に精度を上げるより“最適構成”を決める発想を提示している。
  • 最終的に実運用向けの構成選定につながる判断軸(評価観点・調整の優先順位)を提示している。
はじめに 規約文書に対するQAシステムを開発している中で、最初に実装した「コサイン類似度でtop-k件取ってきてLLMに渡す」構成では精度が出ませんでした。条番号を指定した質問で見当違いのチャンクが返ってきたり、複数セクションにまたがる質問にまるで対応できなかったりします。 「RAGの精度が悪い」と一言で言っても、原因が検索にあるのか生成にあるのか、手法を変えれば改善するのかがわかりません。そこで本記事では、Vanilla RAGから始めて段階的に手法を変え、それぞれ評価・考察・採否判定を行い、最終的に最適な構成を決める、というアプローチを取りました。 比較したのは以下の4手法です。...

Continue reading this article on the original site.

Read original →