低資源言語データのための大規模言語モデルのマイニング:ハウサ語とフォンベ語におけるエリシテーション(引き出し)戦略の比較
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、戦略的なプロンプトが低資源言語から商用LLMを用いて利用可能なテキストデータを引き出せるかどうかを検証し、ハウサ語とフォンベ語に焦点を当てる。
- GPT-4o MiniとGemini 2.5 Flashを用いて、6種類のエリシテーション(引き出し)タスクタイプを比較し、その結果、GPT-4o MiniはAPI呼び出し1回あたりに抽出できる「利用可能な目標言語」の語数が6〜41倍多いことを示す。
- 本研究は、「最適」なプロンプト戦略は言語に依存することを明らかにする。具体的には、ハウサ語は機能的なテキスト/対話の引き出しでより良い結果となり、フォンベ語はより制約のある生成プロンプトを必要とする。
- 著者らは生成されたコーパスとコードを公開しており、他の研究者や開発者がエリシテーション手法を再現し、拡張できるようにしている。




