辞書ベースの対訳的意味射影による概念のレキシカル化生成

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、辞書ベースのクロスリンガルな意味射影により、WordNet形式の語彙資源を新しい言語へ拡張するための、感覚(sense)の生成手法を提案しています。
  • senseタグ付きの英語コーパスと対応する翻訳を用いて、英語のシノセットをターゲット言語側のアラインされたトークンへ投影し、対応するレムマを割り当てます。
  • アラインメントの質を高め誤りを減らすために、事前学習済みのアライナーをバイリンガル辞書で強化し、さらに不正確な感覚投影を辞書でフィルタリングします。
  • 複数言語での実験では、既存手法や辞書ベース、さらには大規模言語モデルを含むベースラインと比較し、解釈可能性を保ちつつ精度が向上し、外部リソースも少なくて済むことが示されています。
  • 著者らは、コード、ドキュメント、生成した感覚インベントリを公開する予定です。