検索の改善はより良い回答を保証しない:AIポリシーQAにおけるRAGの研究

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、947件のAIポリシー文書からなるAGORAコーパスを用いて、AIポリシーに関する質問応答に対する検索拡張生成(RAG)を評価する。焦点は、緻密な法的文言と規制の重複である。
  • 著者らは、ColBERTベースの検索器(コントラスト学習により微調整)と、人間の嗜好に整合する生成器を組み合わせてRAGパイプラインを構築し、Direct Preference Optimization(DPO)によってシステムを調整する。さらに、合成クエリと対(ペア)形式の嗜好を用いて適応する。
  • ドメイン固有の検索の微調整は検索指標を改善するが、ポリシーQAにおけるエンドツーエンドの回答の関連性や信頼性(faithfulness)を一貫して向上させるとは限らない。
  • 場合によっては、より強力な検索によって、必要な文書がコーパスに存在しないときに、確信の高い幻覚(hallucinations)が増える。これは、コンポーネント単位の最適化の限界を示している。
  • 本研究の結果は、ポリシーに特化したRAGシステムを構築する開発者に対し、個々のモジュールの改善が、動的な規制コレクション上で信頼できる根拠に基づく回答につながるとは限らないことを警告する。そのため、エンドツーエンドの評価と堅牢性(robustness)に関する取り組みが求められる。

Abstract

生成拡張(RAG)システムは、複雑な政策文書を分析するためにますます活用されている一方で、専門家による利用に十分な信頼性を達成することは、密度の高い法的言語と、進化し重なり合う規制の枠組みが特徴となる領域では依然として困難です。本研究では、AIガバナンスと政策分析へのRAGの適用を、AI Governance and Regulatory Archive(AGORA)コーパスを用いて検討します。AGORAコーパスは、厳選された947件のAI政策文書のコレクションです。私たちのシステムは、コントラスティブ学習で微調整したColBERTベースのリトリーバと、Direct Preference Optimization(DPO)を用いて人間の嗜好に整合するジェネレータを組み合わせています。政策領域に適応するために、合成クエリを構築し、対(ペア)ごとの嗜好を収集します。検索品質、回答の関連性、忠実性(faithfulness)を評価する実験を通じて、領域固有の微調整は検索指標を改善するものの、エンドツーエンドの質問応答性能を一貫して改善しないことがわかりました。場合によっては、より強力な検索が、関連文書がコーパスに存在しないときに、直感に反してより自信に満ちた幻覚(hallucinations)につながることもあります。これらの結果は、政策に焦点を当てたRAGシステムを構築する人々にとっての重要な懸念を浮き彫りにしています。個々のコンポーネントの改善は、必ずしもより信頼できる回答につながるとは限りません。私たちの発見は、動的な規制コーパス上で根拠に基づく質問応答システムを設計するための実践的な示唆を提供します。