Konkani LLM:低リソースのインド言語に向けたマルチスクリプトの指示追従チューニングと評価

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、コンカニ語におけるLLMの性能が低い理由を、学習データの入手可能性が低いことと、デーヴァナーガリー文字、ローミー文字、カンナダ文字にまたがる表記(スクリプト)の多様性が高いことに起因するとして説明している。
  • 「Konkani-Instruct-100k」という合成の指示追従用チューニング・データセットを導入する。これはGemini 3により生成され、コンカニ語の指示追従性能の向上を目的としている。
  • 著者らは、地域ごとの言語的ニュアンスに合わせて微調整した「Konkani LLM」を作成し、公開重みモデル(Llama 3.1、Qwen2.5、Gemma 3)とクローズドソースの商用プロプライエタリ・モデルの両方に対して評価を行う。
  • 単一のスクリプトに限定するのではなく、異なる正書法(オルソグラフィー)にまたがって体系的に評価できるよう、「Multi-Script Konkani Benchmark」を開発している。
  • 機械翻訳の実験では、Konkani LLMはベースモデルに対して一貫した改善を示し、プロプライエタリのベースラインと競合できるだけでなく、場合によってはそれを上回ることもある。