LGSE：低リソース言語適応のための語彙的（形態論的）に根ざしたサブワード埋め込み初期化

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、アムハラ語やティグリニア語のような低リソースかつ形態論的に豊かな言語へ事前学習済み言語モデルを適応させるために、語彙的（形態論的）に根ざした埋め込みの初期化手法であるLGSEという枠組みを提案する。
通常の語彙拡張アプローチが、恣意的に分割したサブワードを用いて語の表現を断片化し得るのに対し、LGSEは単語をモルフェムへ分解し、事前学習済みのサブワード／FastTextベースのモルフェム表現を平均して埋め込みを構築する。
意味のあるモルフェム分割が利用できない場合、LGSEは文字n-gram表現へフォールバックし、未見または扱いにくいトークンに対して構造的情報を捉える。
言語適応型の事前学習では、LGSEは初期化された埋め込みからの大きな乖離を抑制する正則化項を追加し、適応を可能にしつつも元の事前学習済み埋め込み空間との整合性を維持する。
QA、NER、テキスト分類に関する実験により、LGSEはタスク全体でベースラインの語彙拡張および適応手法を上回る性能を示し、著者らはGitHubでプロジェクト資源を提供している。