Konkani LLM：低リソースのインド言語に向けたマルチスクリプトの指示追従チューニングと評価

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、コンカニ語におけるLLMの性能が低い理由を、学習データの入手可能性が低いことと、デーヴァナーガリー文字、ローミー文字、カンナダ文字にまたがる表記（スクリプト）の多様性が高いことに起因するとして説明している。
「Konkani-Instruct-100k」という合成の指示追従用チューニング・データセットを導入する。これはGemini 3により生成され、コンカニ語の指示追従性能の向上を目的としている。
著者らは、地域ごとの言語的ニュアンスに合わせて微調整した「Konkani LLM」を作成し、公開重みモデル（Llama 3.1、Qwen2.5、Gemma 3）とクローズドソースの商用プロプライエタリ・モデルの両方に対して評価を行う。
単一のスクリプトに限定するのではなく、異なる正書法（オルソグラフィー）にまたがって体系的に評価できるよう、「Multi-Script Konkani Benchmark」を開発している。
機械翻訳の実験では、Konkani LLMはベースモデルに対して一貫した改善を示し、プロプライエタリのベースラインと競合できるだけでなく、場合によってはそれを上回ることもある。

日経XTECH

Mistral AI Blog

Dev.to

日経XTECH

日経XTECH