CWoMP: インターリニア・グロスの形態素表現学習
arXiv cs.CL / 2026/3/20
📰 ニュースTools & Practical UsageModels & Research
要点
- CWoMPは形態素中心の事前学習フレームワークを導入し、形態素を原子単位として扱い、それらの表現を学習し、文脈中の語と形態素を共通の埋め込み空間で整合させます。
- この手法は、対照学習で訓練されたエンコーダと、可変語彙辞書から形態素列を取り出す自己回帰型デコーダを用い、解釈性のために語彙エントリに基づく予測を生成します。
- 重要な新規性は、推論時に利用者が可変語彙辞書を拡張できる点で、再学習なしに結果を改善し、対話的・段階的な改善を可能にします。
- 資源が非常に乏しい多様な言語に対する評価では、CWoMPが従来の手法を上回り、より高い効率を達成し、データが不足している場合に顕著な改善を示します。




