CORAL:文化に適合するマルチリンガルRAGのための適応的リトリーバルループ

arXiv cs.CL / 2026/4/29

📰 ニュースModels & Research

要点

  • CORALは、エビデンスの質に基づいて検索コーパスとクエリの両方を同時に改善する、文化に適合するマルチリンガルRAG向けの適応的リトリーバルループを提案します。
  • 固定されたmRAGの検索空間では、文化に根ざした質問に対して、強力な検索器や生成器でも言語・地域の文脈が不適切な証拠を引いてしまい、検索条件の不一致が起き得るという課題があります。
  • CORALは、コーパス選択、文書検索、文化的関連性の批評、充足性の確認を反復し、証拠が不十分ならコーパスを再選択してクエリを書き換えます。
  • 2つの文化QAベンチマークで、CORALは低リソース言語において最強のベースラインに比べ最大3.58ポイントの精度向上を達成しました。

要旨: 多言語検索拡張生成(mRAG)は、多くの場合、検索空間を固定した形で実装されます。典型的には、クエリや文書の翻訳、または多言語埋め込みベクトル表現によって行われます。しかし、このアプローチは、文化的に根ざしたクエリに対しては不十分な場合があります。その場合、検索条件の不一致が発生し得ます。強力なリトリーバと生成器であっても、不適切な言語的・地域的文脈から根拠(エビデンス)を調達してしまうと、文化的に妥当な回答を生成するのが難しくなる可能性があります。そこで本研究では、CORAL(COntext-aware Retrieval with Agentic Loop:文脈を意識したエージェンティックループによる検索)を導入します。これは、得られるエビデンスの質に基づいて、検索空間(コーパス)と検索プローブ(クエリ)の両方を、反復的に改善できるmRAGのための適応的検索手法です。全体のプロセスは、(1) コーパスの選択、(2) 文書の検索、(3) 関連性と文化的整合性の観点からエビデンスを批評(critique)すること、(4) 十分性を確認すること、を含みます。取得した文書がクエリに対して正しく回答するには不十分な場合、システムは(5) コーパスを再選択し、クエリを書き換えます。2つの文化に関するQAベンチマークにおいて、CORALは、最強のベースラインに比べて、低リソース言語で最大3.58%pの精度向上を達成します。