要旨: Retrieval-augmented generation (RAG) システムは、英語環境における複雑なマルチホップ質問応答(QA)タスクの解決において大きな進歩を遂げてきました。しかし、RAGシステムは多言語コーパスとクエリを横断して検索する適用シナリオに対して避けられない課題に直面しており、いくつかの未解決の課題が残ります。最初の課題は、マルチ言語・マルチホップ(MM-hop)QA設定におけるRAGシステムの能力を評価するベンチマークが欠如していることです。2つ目は、英語におけるLLMsの強い意味理解に過度に依存することにあり、これが多言語シナリオでの有効性を低下させます。これらの課題に対処するため、まず英語専用のベンチマークを五言語に翻訳してマルチリンガル・マルチホップQAベンチマークを構築し、その後、新規のマルチリンガルRAGフレームワーク DaPT を提案します。DaPT は、ソース言語のクエリとその英語翻訳対応分の両方に対して並行にサブクエスチョン・グラフを生成し、それらを統合してから、バイリンガルの検索・回答戦略を用いて順次サブクエスチョンを解決します。実験結果は、先進的なRAGシステムが多言語シナリオで顕著な性能の不均衡に苦しむことを示しています。さらに、提案手法はベースラインと比較して一貫してより正確で簡潔な回答を提供し、このタスクにおけるRAGの性能を大幅に向上させます。例えば、最も難易度の高い MuSiQue ベンチマークでは、DaPT が最も強力なベースラインより平均 EM スコアで相対的に18.3%の改善を達成します。
DaPT: 多言語マルチホップ質問応答のためのデュアルパスフレームワーク
arXiv cs.CL / 2026/3/20
📰 ニュースModels & Research
要点
- DaPT は、多言語のマルチホップ質問応答(MM-hop QA)のための検索を組み込んだデュアルパス型の多言語フレームワークを提案する(MM-hop QA)。
- 著者らは、英語のベンチマークを5言語に翻訳することで、言語間の評価を可能にする多言語MM-hopベンチマークを作成する。
- DaPT は、元言語のクエリとその英語訳のサブ質問グラフを並行して生成し、それらを統合してから、二言語対応の検索と回答戦略を適用する。
- 実験結果は、先進的なRAGシステムが多言語シナリオで性能の不均衡に苦しむことを示しており、DaPT はベースラインよりもより正確で簡潔な回答を提供する(例:MuSiQue における平均 EM の相対改善が18.3%)。
- 本研究は、多言語評価の重要性を強調しており、今後の多言語 QA 研究やベンチマーク開発に影響を与える可能性がある。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
