低資源言語の機械翻訳における多ショット・インコンテキスト学習の実証研究

arXiv cs.CL / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、FLORES+に新たに追加された10の「真に低資源」言語について、英語からの機械翻訳における多ショット・インコンテキスト学習(ICL)の実証的評価を提示する。
  • ICLの例の数が増えるほど翻訳品質は概ね向上し、低資源設定において長いコンテキストでプロンプトすることの利点が示される。
  • BM25に基づく、より情報量の高い例の検索は、データ効率を大幅に改善することが分かり、50件の検索例が約250件の多ショット例と同程度の性能を示す。
  • 検索した250件の例を用いると、約1,000件の多ショット例を用いた場合と同等の結果が得られ、検索によって推論コストを抑えつつ有効性を維持できることを示唆する。
  • 著者らはさらに、例の検索品質、ドメイン外データ、長さに基づく並べ替えが多ショットICLの性能にどのように影響するかを分析する。

Abstract

コンテキスト内学習(ICL)は、大規模言語モデル(LLM)が少数の例から新しいタスクに適応できるようにし、事前学習で十分に代表されていない言語にとって有望です。多射例(many-shot)ICLに関する最近の研究では、現代のLLMが長いコンテキストウィンドウによって可能になるより大きなICL例からさらに恩恵を受けられることが示唆されています。しかし、こうした利得は慎重な例の選択に依存しており、推論コストは低資源言語のコミュニティにとって過度になり得ます。本論文では、FLORES+に最近追加された、英語から10の真に低資源な言語への機械翻訳を対象として、多射例ICLの実証的研究を提示します。より情報量の多い例を取得すること、ドメイン外データを用いること、例を長さで順序付けることが与える影響を分析します。その結果、多射例ICLは例数が増えるほど効果が高まることが分かりました。さらに重要なのは、BM25ベースの取得がデータ効率を大幅に改善することを示す点です。すなわち、取得された50例は、おおよそ250の多射例に相当し、また250の取得例は1,000の多射例と同程度の性能を示します。