検索の改善はより良い回答を保証しない:AIポリシーQAにおけるRAGの研究
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究では、947件のAIポリシー文書からなるAGORAコーパスを用いて、AIポリシーに関する質問応答に対する検索拡張生成(RAG)を評価する。焦点は、緻密な法的文言と規制の重複である。
- 著者らは、ColBERTベースの検索器(コントラスト学習により微調整)と、人間の嗜好に整合する生成器を組み合わせてRAGパイプラインを構築し、Direct Preference Optimization(DPO)によってシステムを調整する。さらに、合成クエリと対(ペア)形式の嗜好を用いて適応する。
- ドメイン固有の検索の微調整は検索指標を改善するが、ポリシーQAにおけるエンドツーエンドの回答の関連性や信頼性(faithfulness)を一貫して向上させるとは限らない。
- 場合によっては、より強力な検索によって、必要な文書がコーパスに存在しないときに、確信の高い幻覚(hallucinations)が増える。これは、コンポーネント単位の最適化の限界を示している。
- 本研究の結果は、ポリシーに特化したRAGシステムを構築する開発者に対し、個々のモジュールの改善が、動的な規制コレクション上で信頼できる根拠に基づく回答につながるとは限らないことを警告する。そのため、エンドツーエンドの評価と堅牢性(robustness)に関する取り組みが求められる。