Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment

arXiv cs.AI / 3/27/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • ランダムアクセス生成(RAG)では知識ベースは通常一度作って更新しないが、実際には必要情報が断片化し無関係文に埋もれているため、知識ベース自体を「学習可能な構成要素」として扱うべきだと提案している。
  • 提案手法WriteBack-RAGは、ラベル付き例で検索(retrieval)の成功箇所を特定し、関連文書を切り出して、圧縮した知識ユニットとして原文コーパスと並行してインデックス化するフレームワークである。
  • 手法はコーパス(文書側)のみを変更するため、RAGパイプラインに対して一度のオフライン前処理として適用でき、既存のどのRAG実装にも組み込みやすい設計になっている。
  • 4つのRAG手法、6つのベンチマーク、2つのLLMバックボーンで評価し、いずれの設定でも改善が確認され平均+2.14%の向上が報告されている。
  • クロス手法転移実験により、書き戻して蒸留された知識が元とは異なるRAGパイプラインでも効果を持つことが示され、改善が「コーパス(蒸留知識)側」に由来することを裏付けている。

Abstract

The knowledge base in a retrieval-augmented generation (RAG) system is typically assembled once and never revised, even though the facts a query requires are often fragmented across documents and buried in irrelevant content. We argue that the knowledge base should be treated as a trainable component and propose WriteBack-RAG, a framework that uses labeled examples to identify where retrieval succeeds, isolate the relevant documents, and distill them into compact knowledge units that are indexed alongside the original corpus. Because the method modifies only the corpus, it can be applied once as an offline preprocessing step and combined with any RAG pipeline. Across four RAG methods, six benchmarks, and two LLM backbones, WriteBack-RAG improves every evaluated setting, with gains averaging +2.14%. Cross-method transfer experiments further show that the distilled knowledge benefits RAG pipelines other than the one used to produce it, confirming that the improvement resides in the corpus itself.