ウクライナ語に向けたエージェント型RAGの開発

arXiv cs.AI / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、UNLP 2026 Shared Task（多分野ドキュメント理解）において、ウクライナ語向けのエージェント型Retrieval-Augmented Generation（RAG）を調査する。
提案手法は、BGE-M3による2段階の検索とBGEによる再ランキングに加え、Qwen2.5-3B-Instructの上でクエリ言い換えや回答リトライのループを行う軽量なエージェント層を組み合わせる。
分析では、主なボトルネックが検索品質にあることが示され、エージェントによるリトライは正確性を高めうるものの、文書およびページの特定によって総合スコアが制約される。
著者らはオフラインのエージェント型パイプラインの実務上の限界を整理し、より強力な検索と高度なエージェント推論を組み合わせる今後の方向性を示す。

Abstract

本稿では、ウクライナ語を対象として、UNLP 2026 Shared Task on Multi-Domain Document Understanding の枠組みの中で実施した Agentic Retrieval-Augmented Generation（RAG）に関する初期調査を提示する。提案システムは、2段階の検索（BGE-M3 と BGE による再ランキング）に加えて、Qwen2.5-3B-Instruct の上に軽量な agentic レイヤを実装し、クエリの言い換えと回答のリトライループを行う。分析の結果、主要なボトルネックは検索品質であることが分かった。agentic なリトライ機構は回答精度を向上させるものの、総合スコアは文書およびページの識別によってなお制約される。オフラインの agentic パイプラインにおける実用上の制約について論じ、ウクライナ語に対して、より強力な検索と、より高度な agentic 推論を組み合わせるための方向性を示す。