検索拡張生成におけるフィードバック適応

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RAGの評価は静的な条件下での精度を測るだけでは不十分であり、ユーザ／専門家からの訂正的フィードバックを受けた後にシステムがどのように変化するかを考慮すべきだと主張する。
RAGに対する「フィードバック適応」を導入し、2つの指標—訂正ラグ（フィードバック後に挙動が更新される速さ）と、フィードバック後のパフォーマンス（意味的に関連する将来のクエリに対する信頼性）—を提案する。
実験結果は、学習ベースの手法において、より速い適応やより信頼できる適応が、訂正の遅延コストを伴い得るというトレードオフを示している。
著者らは、即時にフィードバックを反映しつつ、提案した指標に基づいて関連クエリへの強い汎化を維持することを目的とした、推論時のみの（再学習なしの）手法PatchRAGを提案する。
全体として、本研究はインタラクティブなRAGの振る舞いを測定可能な次元として捉え直し、既存の評価プロトコルがフィードバック伝播のダイナミクスを見落としていることを強調する。

要旨: 検索拡張生成（RAG）システムは、導入後にユーザや専門家からのフィードバックによって頻繁に修正されるにもかかわらず、一般に静的な前提のもとで評価されます。既存の評価プロトコルは全体的な正確性に焦点を当てており、フィードバックが導入された後にシステムがどのように適応するかを捉えられていません。本研究では、RAGシステムに対する問題設定としてフィードバック適応を導入し、修正的フィードバックが今後のクエリに対してどれだけ効果的か、またどれだけ速く伝播するかを問います。この挙動を測定可能にするために、2つの評価軸を提案します。1つ目は補正ラグで、フィードバック提供と行動の変化の間の遅延を捉えます。2つ目はフィードバック後の性能で、フィードバック後に意味的に関連するクエリに対する信頼性を測定します。これらの指標を用いて、学習ベースのアプローチは、遅延した補正と信頼できる適応との間にトレードオフがあることを示します。さらに、PatchRAGを提案します。PatchRAGは、再学習を行わずにフィードバックを組み込む、最小限の推論時インスタンスであり、提案した評価において即時の補正と強いフィードバック後の汎化を実現することを示します。本結果は、インタラクティブな状況におけるRAGシステムの挙動として、フィードバック適応が従来見過ごされてきた次元であることを明らかにします。