低資源言語の機械翻訳における多ショット・インコンテキスト学習の実証研究
arXiv cs.CL / 2026/4/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、FLORES+に新たに追加された10の「真に低資源」言語について、英語からの機械翻訳における多ショット・インコンテキスト学習(ICL)の実証的評価を提示する。
- ICLの例の数が増えるほど翻訳品質は概ね向上し、低資源設定において長いコンテキストでプロンプトすることの利点が示される。
- BM25に基づく、より情報量の高い例の検索は、データ効率を大幅に改善することが分かり、50件の検索例が約250件の多ショット例と同程度の性能を示す。
- 検索した250件の例を用いると、約1,000件の多ショット例を用いた場合と同等の結果が得られ、検索によって推論コストを抑えつつ有効性を維持できることを示唆する。
- 著者らはさらに、例の検索品質、ドメイン外データ、長さに基づく並べ替えが多ショットICLの性能にどのように影響するかを分析する。




