要旨: 教師なしクラスタリングとクロスリンガル転移学習を組み合わせることで、リソースの少ないバントゥ語における形態的特徴を発見する手法を提示します。ラベル付きのパラダイムがわずか91個しかない言語ギリヤマ(nyf)に適用したところ、我々のパイプラインは2,455語の名詞クラス割り当てを発見し、これまで未報告だった2つの形態的パターンを特定しました。すなわち、クラス2のa-接頭辞の変異(wa-における母音連結—隣接する2つの母音の合体—で、95.1%の一致率)と、縮約されたk'-接頭辞(98.5%の一致率)です。444の既知のギリヤマ動詞パラダイムに対する外部検証により、字面化(レムマ化)精度78.2%が確認されました。一方で、v3コーパスを19,624語(9,014個の固有レムマ)まで拡張すると、主要な語種すべてにわたって分割97.3%、レムマ化86.7%を達成しました。スワヒリからの転移学習と教師なしクラスタリングのアンサンブルを、重み付き投票によって統合することで、相補的な強みを活用します。転移は、(語彙の重複がおよそ60%であることを活かした)同族語検出において優れており、クラスタリングは転移では見えない言語固有の革新を発見します。低リソースのバントゥ語に対する形態論的ドキュメンテーションを支援するために、我々はすべてのコードと発見された語彙(レキシコン)を公開します。
スワヒリ語からのクロスリンガル転移と教師なしクラスタリングによる、低資源バントゥ諸語のゼロショット形態素発見
arXiv cs.LG / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クロスリンガル転移学習と教師なしクラスタリングを組み合わせることで、低資源のバントゥ諸語における形態素特徴をゼロショットで発見する手法を提案しています。
- Giriama(nyf)を対象に、91のラベル付きパラダイムしかない条件下で2,455語の名詞クラスを推定し、これまで未記録だった2つの形態論的パターンを高い一貫性で特定しました。
- 444の既知Giriama動詞パラダイムでの外部検証では、レマ化精度は78.2%であり、v3コーパス拡張(19,624語)では主要な品詞すべてで97.3%のセグメンテーションと86.7%のレマ化を達成しています。
- 重み付き投票によるアンサンブルは、転移学習が実質的な語彙オーバーラップ(約60%)により同族語検出に強い一方で、クラスタリングが転移では見落とされうる言語固有の変異を捉える点で相補的に働くと論じています。
- すべてのコードと発見した語彙リストが公開されており、他の低資源バントゥ諸語の形態論的ドキュメンテーションを支援することを目的としています。




