arXiv:2603.20218v1 公開タイプ: 新規
要旨: リトリーバル拡張生成(Retrieval-augmented generation)は、関連する検索テキストをプロンプトに追加することで、大規模言語モデルの精度を向上させます。チャンク(分割)レベルキャッシュ(Chunk level caching: CLC)は、これらの検索チャンクに対するKVキャッシュを事前計算し、それを再利用することで推論を高速化します。しかし、これらのキャッシュはチャンク間のクロスアテンション依存関係を取りこぼしてしまい、その結果、出力品質が低下する可能性があります。複数の手法が、異なる技術を用いてCLCの精度を改善しようとしています。私たちは主に2つの貢献を行います。第一に、既存のCLCアプローチには、精度、あるいは適用可能性を制限する本質的な制約があることを示します。この結論は、広範なCLCシステムの実験的評価によって裏づけます。第二に、既存のCLC技術は互いに補完関係にあることを観察します。この洞察を活かして、それらを慎重に組み合わせる新しいCLC設計を提案し、より高い精度を達成します。



