ローカル展開のためのウクライナ語エンドツーエンドRAG:最適化されたハイブリッド検索と軽量生成

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文では、ウクライナ語の文書質問応答向けにローカル展開可能なエンドツーエンドRAGシステムを提案し、UNLP 2026 Shared Taskで2位を獲得した。
  • 関連する文書ページを取得するための独自の2段階ハイブリッド検索パイプラインと、合成データで微調整したウクライナ語言語モデルによる根拠に基づく回答生成を組み合わせている。
  • モデルを圧縮して軽量なデプロイを可能にし、計算コストを抑えつつ回答品質を維持することを目指している。
  • 厳しい計算制限下での評価により、リソースが限られた環境でもローカルで検証可能な高品質AI QAを実現でき、精度を落とさないことが示された。

Abstract

この論文は、ウクライナ語の文書質問応答のために特別に構築された、高効率なRetrieval-Augmented Generation(RAG)システムを提示するものであり、UNLP 2026 Shared Taskで第2位を獲得しました。提案手法は、関連する文書ページを取得するカスタムの2段階検索パイプラインを備え、さらに、合成データで微調整した専用のウクライナ語言語モデルと組み合わせることで、正確で根拠のある回答を生成します。最後に、軽量なデプロイのためにモデルを圧縮します。厳しい計算制限の下で評価した結果、本アーキテクチャは、高品質で検証可能なAIによる質問応答を、精度を犠牲にすることなく、リソース制約のあるハードウェア上でローカルに実現できることを示しています。