資源の多寡にまたがる依存構造解析:高・低リソース言語でのアーキテクチャ評価
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Biaffine LSTM、Stack-Pointer Network、AfroXLMR-large、RemBERTの4種類の依存構造解析器を、10の類型論的に多様な言語で評価し、とくに低リソースのアフリカ言語に焦点を当てています。
- 学習データが乏しい状況ではBiaffine LSTMがトランスフォーマ系モデルを一貫して上回り、データが増えるにつれてトランスフォーマが再び優位になることが示されました。
- その優劣が入れ替わる「クロスオーバー」点は、十分に資源が整っていない言語のtreebankで典型的に観測されるデータ量の範囲に入っています。
- コーパスサイズを制御した後でも、形態的複雑さ(MATTRで測定)が、トランスフォーマが単純な方式に対してどれだけ不利になり得るかの追加要因として有意であることが分かりました。
- これらの結果から、低リソース環境での構文ツール開発には、注釈付きデータが十分に用意されるまでBiaffine LSTMがより適した選択になり得ると結論づけています。