低資源言語データのための大規模言語モデルのマイニング：ハウサ語とフォンベ語におけるエリシテーション（引き出し）戦略の比較

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、戦略的なプロンプトが低資源言語から商用LLMを用いて利用可能なテキストデータを引き出せるかどうかを検証し、ハウサ語とフォンベ語に焦点を当てる。
GPT-4o MiniとGemini 2.5 Flashを用いて、6種類のエリシテーション（引き出し）タスクタイプを比較し、その結果、GPT-4o MiniはAPI呼び出し1回あたりに抽出できる「利用可能な目標言語」の語数が6〜41倍多いことを示す。
本研究は、「最適」なプロンプト戦略は言語に依存することを明らかにする。具体的には、ハウサ語は機能的なテキスト／対話の引き出しでより良い結果となり、フォンベ語はより制約のある生成プロンプトを必要とする。
著者らは生成されたコーパスとコードを公開しており、他の研究者や開発者がエリシテーション手法を再現し、拡張できるようにしている。

Abstract

大規模言語モデル（LLM）は、低リソース言語コミュニティが提供したデータを用いて訓練されますが、これらのモデルに符号化された言語知識は、商用APIを通してのみ利用可能という状態が続いています。本論文では、戦略的なプロンプトが、2つの西アフリカの言語――ハウサ語（アフロ・アジア語族、約8000万人の話者）とフォンベ語（ニジェール・コンゴ語族、約200万人の話者）――からLLMを用いて実用可能なテキストデータを抽出できるかどうかを検討します。私たちは、2つの商用LLM（GPT-4o MiniおよびGemini 2.5 Flash）に対して、6種類のエリシテーション（引き出し）タスクのタイプを体系的に比較します。GPT-4o Miniは、API呼び出し1回あたりで、Geminiよりも対象言語の「利用可能な」語を6〜41倍多く抽出します。最適な戦略は言語ごとに異なります。ハウサ語では機能的なテキストと対話が有効であるのに対し、フォンベ語では制約付きの生成プロンプトが必要です。私たちは、生成したコーパスとコードのすべてを公開します。