ウクライナ語に向けたエージェント型RAGの開発

arXiv cs.AI / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、UNLP 2026 Shared Task(多分野ドキュメント理解)において、ウクライナ語向けのエージェント型Retrieval-Augmented Generation(RAG)を調査する。
  • 提案手法は、BGE-M3による2段階の検索とBGEによる再ランキングに加え、Qwen2.5-3B-Instructの上でクエリ言い換えや回答リトライのループを行う軽量なエージェント層を組み合わせる。
  • 分析では、主なボトルネックが検索品質にあることが示され、エージェントによるリトライは正確性を高めうるものの、文書およびページの特定によって総合スコアが制約される。
  • 著者らはオフラインのエージェント型パイプラインの実務上の限界を整理し、より強力な検索と高度なエージェント推論を組み合わせる今後の方向性を示す。

Abstract

本稿では、ウクライナ語を対象として、UNLP 2026 Shared Task on Multi-Domain Document Understanding の枠組みの中で実施した Agentic Retrieval-Augmented Generation(RAG)に関する初期調査を提示する。提案システムは、2段階の検索(BGE-M3 と BGE による再ランキング)に加えて、Qwen2.5-3B-Instruct の上に軽量な agentic レイヤを実装し、クエリの言い換えと回答のリトライループを行う。分析の結果、主要なボトルネックは検索品質であることが分かった。agentic なリトライ機構は回答精度を向上させるものの、総合スコアは文書およびページの識別によってなお制約される。オフラインの agentic パイプラインにおける実用上の制約について論じ、ウクライナ語に対して、より強力な検索と、より高度な agentic 推論を組み合わせるための方向性を示す。