AI Navigate

CWoMP: インターリニア・グロスの形態素表現学習

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • CWoMPは形態素中心の事前学習フレームワークを導入し、形態素を原子単位として扱い、それらの表現を学習し、文脈中の語と形態素を共通の埋め込み空間で整合させます。
  • この手法は、対照学習で訓練されたエンコーダと、可変語彙辞書から形態素列を取り出す自己回帰型デコーダを用い、解釈性のために語彙エントリに基づく予測を生成します。
  • 重要な新規性は、推論時に利用者が可変語彙辞書を拡張できる点で、再学習なしに結果を改善し、対話的・段階的な改善を可能にします。
  • 資源が非常に乏しい多様な言語に対する評価では、CWoMPが従来の手法を上回り、より高い効率を達成し、データが不足している場合に顕著な改善を示します。

Abstract

行間グロス付きテキスト(IGT)は、言語文書化の標準表記法であり、言語学的には豊かだが手作業で作成するには労力がかかる。最近の自動IGT手法はグロスを文字列として扱い、それらの構成的な構造を無視する。私たちはCWoMP(Contrastive Word-Morpheme Pretraining)を提案する。むしろ語素を、学習済みの表現を持つ原子レベルの形態-意味単位として扱う。対照的に訓練されたエンコーダは、文脈中の語とそれを構成する語素を共有埋め込み空間で整列させる;自己回帰デコーダは、これらの埋め込みからなる可変語彙のエントリを取得して語素列を生成する。予測は語彙エントリに基づいて解釈可能であり、推論時に語彙を拡張して再学習せずに結果を改善できる。私たちは多様な低リソース言語で評価し、CWoMP は既存の手法より優れており、はるかに効率的であることを示し、特に極めて低リソース設定で大きな改善を示した。