低資源言語データのための大規模言語モデルのマイニング:ハウサ語とフォンベ語におけるエリシテーション(引き出し)戦略の比較

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、戦略的なプロンプトが低資源言語から商用LLMを用いて利用可能なテキストデータを引き出せるかどうかを検証し、ハウサ語とフォンベ語に焦点を当てる。
  • GPT-4o MiniとGemini 2.5 Flashを用いて、6種類のエリシテーション(引き出し)タスクタイプを比較し、その結果、GPT-4o MiniはAPI呼び出し1回あたりに抽出できる「利用可能な目標言語」の語数が6〜41倍多いことを示す。
  • 本研究は、「最適」なプロンプト戦略は言語に依存することを明らかにする。具体的には、ハウサ語は機能的なテキスト/対話の引き出しでより良い結果となり、フォンベ語はより制約のある生成プロンプトを必要とする。
  • 著者らは生成されたコーパスとコードを公開しており、他の研究者や開発者がエリシテーション手法を再現し、拡張できるようにしている。

Abstract

大規模言語モデル(LLM)は、低リソース言語コミュニティが提供したデータを用いて訓練されますが、これらのモデルに符号化された言語知識は、商用APIを通してのみ利用可能という状態が続いています。本論文では、戦略的なプロンプトが、2つの西アフリカの言語――ハウサ語(アフロ・アジア語族、約8000万人の話者)とフォンベ語(ニジェール・コンゴ語族、約200万人の話者)――からLLMを用いて実用可能なテキストデータを抽出できるかどうかを検討します。私たちは、2つの商用LLM(GPT-4o MiniおよびGemini 2.5 Flash)に対して、6種類のエリシテーション(引き出し)タスクのタイプを体系的に比較します。GPT-4o Miniは、API呼び出し1回あたりで、Geminiよりも対象言語の「利用可能な」語を6〜41倍多く抽出します。最適な戦略は言語ごとに異なります。ハウサ語では機能的なテキストと対話が有効であるのに対し、フォンベ語では制約付きの生成プロンプトが必要です。私たちは、生成したコーパスとコードのすべてを公開します。