CroSearch-R1:多言語知識の活用を改善するリトリーバル拡張生成

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、多言語コーパスがRAG(Retrieval-Augmented Generation)において他言語の知識を用いて事実を補正・補強できる一方で、単純に複数言語の知識を文脈に連結するだけでは有効性が損なわれ得ると主張しています。
  • CroSearch-R1は、知識スニペットを単に付け足すのではなく、GRPO(Group Relative Policy Optimization)のプロセスに多言語知識を統合する検索支援型強化学習フレームワークとして提案されています。
  • CroSearch-R1は、クロスリンガルな知識統合と組み合わせたマルチターン検索により、複数言語の証拠を統一的な表現空間へ動的に整列(アライン)させます。
  • さらに、言語間での推論の移転可能性を高めることを目的とした多言語ロールアウト機構を導入し、多言語コレクションでのRAG有効性の改善を実験で示しています。

概要: 多言語のコレクションには、Retrieval-Augmented Generation(RAG)において、元の言語に含まれる事実を補足し、かつ修正するための有用な知識が、他の言語として含まれている場合があります。しかし、複数の言語から得た知識を単に結合してコンテキストに詰め込むだけの素朴な手法では、言語間に存在し得る不一致により、効果の向上に失敗する可能性があります。多言語の知識をより適切に活用するために、本研究では、GRPO(Group Relative Policy Optimization)プロセスへ多言語の知識を統合するための検索拡張型強化学習フレームワークである CroSearch-R1 を提案します。具体的には、本手法では、他言語の知識を補助的な根拠として統一された表現空間へ動的に整合させるために、言語をまたぐ知識統合を伴うマルチターン検索戦略を採用します。さらに、言語間での推論の転移可能性を最適化するための多言語ロールアウト機構も導入します。実験結果は、提案フレームワークが言語間の補完性を効果的に活用し、多言語コレクションに対する RAG の有効性を向上できることを示しています。