概要: 取得拡張生成(RAG)システムにおける知識ベースは、通常一度だけ組み立てられ、改訂されることはありません。しかし、問い合わせに必要な事実はしばしば文書に断片的に散らばっており、無関係な内容に埋もれていることが多いのです。本研究では、知識ベースは学習可能なコンポーネントとして扱うべきだと主張し、WriteBack-RAG という枠組みを提案します。この枠組みでは、ラベル付きの例を用いて取得が成功している箇所を特定し、関連文書を切り出し、それらをコンパクトな知識ユニットへ蒸留したうえで、元のコーパスと並べてインデックス化します。この方法はコーパスのみを変更するため、オフラインの前処理ステップとして一度適用でき、任意の RAG パイプラインと組み合わせ可能です。4つの RAG 手法、6つのベンチマーク、2つの LLM バックボーンにわたって、WriteBack-RAG は評価したすべての設定で改善をもたらし、平均 +2.14% の向上が得られます。さらに、手法をまたいだ転移実験では、蒸留された知識が、それを生成したものとは異なる RAG パイプラインにも有益であることが示されました。これは、この改善がコーパス自体に起因していることを確認するものです。
証拠蒸留と書き戻し強化による知識ベースの学習
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ランダムアクセス生成(RAG)では知識ベースは通常一度作って更新しないが、実際には必要情報が断片化し無関係文に埋もれているため、知識ベース自体を「学習可能な構成要素」として扱うべきだと提案している。
- 提案手法WriteBack-RAGは、ラベル付き例で検索(retrieval)の成功箇所を特定し、関連文書を切り出して、圧縮した知識ユニットとして原文コーパスと並行してインデックス化するフレームワークである。
- 手法はコーパス(文書側)のみを変更するため、RAGパイプラインに対して一度のオフライン前処理として適用でき、既存のどのRAG実装にも組み込みやすい設計になっている。
- 4つのRAG手法、6つのベンチマーク、2つのLLMバックボーンで評価し、いずれの設定でも改善が確認され平均+2.14%の向上が報告されている。
- クロス手法転移実験により、書き戻して蒸留された知識が元とは異なるRAGパイプラインでも効果を持つことが示され、改善が「コーパス(蒸留知識)側」に由来することを裏付けている。



