ほとんどの低リソース言語の研究では、ファインチューニングが可能であることを前提としています。しかし、スピーカーが約200万人で、公式な文字体系の標準化がなく、ウェブ上の存在感がほぼゼロで、さらには凍結モデル(ファインチューニング不可)の状態で作業する場合はどうなるのでしょうか?
私たちはインド、カルナータカ沿岸のドラヴィダ語族に属するトゥル語でこの問題に直面しました。主要な失敗パターンはモデル間で一貫しており、トゥル語のプロンプトを与えるとカンナダ語が返ってくるというものです。モデルは無作為に幻覚を生むのではなく、学習分布内の最も高確率な近隣(カンナダ語)に崩壊しています。ベースライン出力の語彙汚染は約80%に達していました。
私たちのアプローチ:5層の構造化プロンプト
これを検索問題やファインチューニング問題とみなすのではなく、プロンプトを明確な層に分解しました:
- 音韻的基盤: トゥル語特有の反転舌音子音や母音長の区別を直接注入
- 形態規則: 接着型の動詞構造や格標識をカンナダ語の対比例と共に示す
- ネガティブ制約: 高頻度のカンナダ語語彙の流入を明示的に抑制(例:ಇದೆ → ಉಂಡು)
- ローマ字化標準化: トゥル語には支配的な文字体系がないため、一貫した音訳基準が必要
- 自己対話合成例: 反復的なモデル批評によって生成された品質管理されたコンテキスト内実演例
結果(ネイティブスピーカーによる検証済み):
- 語彙汚染:80% → 5%
- 文法的正確さ:85%
- GPT-4o、Gemini 2.0 Flash、Llama 3.1 70B でテスト済み
興味深い点(そして未解決の点):
ネガティブ制約層は予想以上に効果を発揮し、文法書単体よりも多く機能しました。これにより完全には答えられていない疑問が生まれます:モデルはプロンプトからトゥル語文法を「学習」しているのか、それとも主に制約されたカンナダ語生成を語彙代替で行っているのか?ネイティブ評価は実際の文法が尊重されていることを示唆しますが、後者の可能性も完全には除外できません。
また注目すべきは、自己対話ループが批評プロンプトに非常に敏感であったことです。評価者の指示のほんの少しの変更で出力品質が大きく変わりました。これは、「正しいトゥル語」を元々知らないモデルにどれだけうまく指定できるかが合成データ品質のボトルネックとなることを示しており、いわばブートストラップの問題でもあります。
議論のための未解決の質問:
- ネガティブ制約のアプローチは、同様に非対称なリソース分布を持つ他の言語ペア(例:マイティリ語/ヒンディー語、スコットランド語/英語)に一般化可能か?
- 「プロンプトによる文法獲得」と関連言語による制約生成を区別する原理的な測定方法はあるか?
- 構造化プロンプティングが、わずかなキュレーション済みコーパスでのファインチューニングに劣らない限界点はどこか?
論文:https://arxiv.org/abs/2602.15378v1
ブログ(より平易な解説):https://letters.lossfunk.com/p/making-large-language-models-speak